服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

面试官:从 MySQL 读取 100w 数据进行处理,应该怎么做?问倒一大遍!

日期: 来源:JAVA小咖秀收集编辑:

大数据量操作的场景大致如下:

1、 数据迁移;
2、 数据导出;
3、 批量处理数据;

在实际工作中当指定查询数据过大时,我们一般使用分页查询的方式一页一页的将数据放到内存处理。但有些情况不需要分页的方式查询数据或分很大一页查询数据时,如果一下子将数据全部加载出来到内存中,很可能会发生OOM(内存溢出);而且查询会很慢,因为框架耗费大量的时间和内存去把数据库查询的结果封装成我们想要的对象(实体类)。

举例:在业务系统需要从 MySQL 数据库里读取 100w 数据行进行处理,应该怎么做?

做法通常如下:

1、 常规查询:一次性读取100w数据到JVM内存中,或者分页读取;
2、 流式查询:建立长连接,利用服务端游标,每次读取一条加载到JVM内存(多次获取,一次一行);
3、 游标查询:和流式一样,通过fetchSize参数,控制一次读取多少条数据(多次获取,一次多行);

常规查询

默认情况下,完整的检索结果集会将其存储在内存中。在大多数情况下,这是最有效的操作方式,并且由于 MySQL 网络协议的设计,因此更易于实现。

举例:

假设单表 100w 数据量,一般会采用分页的方式查询:

@Mapper
public interface BigDataSearchMapper extends BaseMapper<BigDataSearchEntity> {

    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    Page<BigDataSearchEntity> pageList(@Param("page") Page<BigDataSearchEntity> page, @Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper);

}

注:该示例使用的 MybatisPlus

该方式比较简单,如果在不考虑 LIMIT 深分页优化情况下,估计你的数据库服务器就噶皮了,或者你能等上几十分钟或几小时,甚至几天时间检索数据

流式查询

流式查询指的是查询成功后不是返回一个集合而是返回一个迭代器,应用每次从迭代器取一条查询结果。流式查询的好处是能够降低内存使用。如果没有流式查询,我们想要从数据库取 100w 条记录而又没有足够的内存时,就不得不分页查询,而分页查询效率取决于表设计,如果设计的不好,就无法执行高效的分页查询。因此流式查询是一个数据库访问框架必须具备的功能。

MyBatis 中使用流式查询避免数据量过大导致 OOM ,但在流式查询的过程当中,数据库连接是保持打开状态的,因此要注意的是:

1、 执行一个流式查询后,数据库访问框架就不负责关闭数据库连接了,需要应用在取完数据后自己关闭;
2、 必须先读取(或关闭)结果集中的所有行,然后才能对连接发出任何其他查询,否则将引发异常;

MyBatis 流式查询接口

MyBatis 提供了一个叫 org.apache.ibatis.cursor.Cursor 的接口类用于流式查询,这个接口继承了 java.io.Closeable 和 java.lang.Iterable 接口,由此可知:

1、 Cursor是可关闭的;
2、 Cursor是可遍历的;

除此之外,Cursor 还提供了三个方法:

1、 isOpen():用于在取数据之前判断Cursor对象是否是打开状态只有当打开时Cursor才能取数据;
2、 isConsumed():用于判断查询结果是否全部取完;
3、 getCurrentIndex():返回已经获取了多少条数据;

使用流式查询,则要保持对产生结果集的语句所引用的表的并发访问,因为其 查询会独占连接,所以必须尽快处理

为什么要用流式查询?

如果有一个很大的查询结果需要遍历处理,又不想一次性将结果集装入客户端内存,就可以考虑使用流式查询;

分库分表场景下,单个表的查询结果集虽然不大,但如果某个查询跨了多个库多个表,又要做结果集的合并、排序等动作,依然有可能撑爆内存;详细研究了sharding-sphere的代码不难发现,除了group by与order by字段不一样之外,其他的场景都非常适合使用流式查询,可以最大限度的降低对客户端内存的消耗。

关于流式查询查询小编本人了解不是很多,再此就不过多说明,如果发现好的资源,还请留言让小编也学习一下。

游标查询

对大量数据进行处理时,为防止内存泄漏情况发生,也可以采用游标方式进行数据查询处理。这种处理方式比常规查询要快很多。

当查询百万级的数据的时候,还可以使用游标方式进行数据查询处理,不仅可以节省内存的消耗,而且还不需要一次性取出所有数据,可以进行逐条处理或逐条取出部分批量处理。一次查询指定 fetchSize 的数据,直到把数据全部处理完。

Mybatis 的处理加了两个注解:@Options 和 @ResultType

@Mapper
public interface BigDataSearchMapper extends BaseMapper<BigDataSearchEntity> {

    // 方式一 多次获取,一次多行
    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    @Options(resultSetType = ResultSetType.FORWARD_ONLY, fetchSize = 1000000)
    Page<BigDataSearchEntity> pageList(@Param("page") Page<BigDataSearchEntity> page, @Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper);

    // 方式二 一次获取,一次一行
    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    @Options(resultSetType = ResultSetType.FORWARD_ONLY, fetchSize = 100000)
    @ResultType(BigDataSearchEntity.class)
    void listData(@Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper, ResultHandler<BigDataSearchEntity> handler);

}

@Options

  • ResultSet.FORWORD_ONLY:结果集的游标只能向下滚动
  • ResultSet. SCROLL_INSENSITIVE:结果集的游标可以上下移动,当数据库变化时,当前结果集不变
  • ResultSet.SCROLL_SENSITIVE:返回可滚动的结果集,当数据库变化时,当前结果集同步改变
  • fetchSize:每次获取量

@ResultType

@ResultType(BigDataSearchEntity.class):转换成返回实体类型

注意: 返回类型必须为 void ,因为查询的结果在 ResultHandler 里处理数据,所以这个 hander 也是必须的,可以使用 lambda 实现一个依次处理逻辑。

注意:

虽然上面的代码中都有 @Options 但实际操作却有不同:

1、 方式一是多次查询,一次返回多条;
2、 方式二是一次查询,一次返回一条;

原因:

Oracle 是从服务器一次取出 fetch size 条记录放在客户端,客户端处理完成一个批次后再向服务器取下一个批次,直到所有数据处理完成。

MySQL 是在执行 ResultSet.next() 方法时,会通过数据库连接一条一条的返回。flush buffer 的过程是阻塞式的,如果网络中发生了拥塞,send buffer 被填满,会导致 buffer 一直 flush 不出去,那 MySQL 的处理线程会阻塞,从而避免数据把客户端内存撑爆。

非流式查询和流式查询区别:

1、 非流式查询:内存会随着查询记录的增长而近乎直线增长;
2、 流式查询:内存会保持稳定,不会随着记录的增长而增长其内存大小取决于批处理大小BATCH_SIZE的设置,该尺寸越大,内存会越大所以BATCH_SIZE应该根据业务情况设置合适的大小;

另外要切记每次处理完一批结果要记得释放存储每批数据的临时容器,即上文中的gxids.clear();

加小编微信,回复 40 白嫖40套 java/spring/kafka/redis/netty 教程/代码/视频 等


扫二维码,加我微信,回复:40

 注意,不要乱回复 

没错,不是机器人
记得一定要等待,等待才有好东西

相关阅读

  • 人过50岁进入健康“关键期”!这5个坏习惯抓紧改

  • 健康时报权威健康资讯,因专业而信赖!身体健康和日常生活中的小细节息息相关,尤其是上了年纪之后,表现得尤为明显。50岁之后,有些不好的习惯可能会使人衰老加速,需要改一改了!健康时
  • 数字经济的四大主线

  • 各位朋友们好,我是阁主。数字经济板块火了这么久,很多人可能还没有深入了解,今天做一次全方位分析,带大家认识一下什么是数字经济,并介绍数字经济的四大主线。一、数字经济规模这
  • 重磅推荐:开源身份认证神器:KeyCloak

  • 大家好,我是TJ一个励志推荐10000款开源项目与工具的程序员安装&初始化下载http://www.keycloak.org/downloads.html笔者下载的是“Standalone server distribution” 。安装&
  • 崩了

  • 点击上方『西门吹雪实盘』可关注并“星标”本号。文章仅记录西门个人投资思考和交易,不构成投资建议,作者不收费荐股、不代客理财。“这是西门吹雪的第446篇原创文章”大家可
  • 完赛物资抢先看!凯乐石FUGA大坡训练赛济南站

  • 点击关注 不迷路美丽的泉城济南四面荷花三面柳,一城山色半城湖4.22凯乐石FUGA大坡训练赛济南站开启1赛事信息 赛事名称:2023凯乐石训练FUGA大坡赛-济南站 赛事冠名:KAILAS凯乐
  • 来武大赏樱,更要来武大追星!

  • 昨夜的珞珈山星光熠熠!年年春华秋实他们忠于职守,信仰坚贞静心沉淀于科研筑梦载载桃李芬芳他们身立杏坛,首修人品潜心奋斗于育人工程武汉大学第十三届“我心目中的好导师”上新
  • 6名党员干部被处分!江西一地通报!

  • 为进一步严明纪律规矩,强化警示教育,督促党员干部和公职人员知敬畏、存戒惧、守底线,杜绝酒驾醉驾违纪违法行为的发生,近日,吉安市泰和县通报6起党员干部酒驾典型案例。澄江镇一

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 面了个五年开发,一些Redis经典问题总结分享!

  • 作为Java程序员,选择学习什么样的技术,什么技术该不该学去招聘网站上搜一搜、看看岗位要求就十分清楚了。自己具备的技术和能力,直接影响到你工作选择范围和能不能面试成功。Ja
  • 说一个,你觉得最难背的单词

  • 本文由蝶澈学姐原创,未经授权禁止转载如题,我突然很感兴趣哈哈哈,大家可以在评论区聊聊↓话锋一转————————澈澈子的【24核心词带背营】已经开放报名1天啦~昨天的文章里
  • 人过50岁进入健康“关键期”!这5个坏习惯抓紧改

  • 健康时报权威健康资讯,因专业而信赖!身体健康和日常生活中的小细节息息相关,尤其是上了年纪之后,表现得尤为明显。50岁之后,有些不好的习惯可能会使人衰老加速,需要改一改了!健康时