Mybatis批量插入组件集成方案及成效

83 阅读3分钟

背景:目前诊后管理项目持久层组件引入的是mybatis-plus,但是该组件默认的for循环来插入,无批量处理等接口来处理业务场景含批量操作的接口,需自定义来丰富业务场景

1、

往往cpu占用过高的消耗在往MyBatis中批量插入数据。

mapper configuration是用foreach循环做的,差不多是这样。

<insert id="batchInsert" parameterType="java.util.List">
    insert into PatInfo (id, name) values
    <foreach collection="list" item="pat" index="index" separator=","> 
        (#{pat.id}, #{pat.name})
    </foreach>
</insert>

这个方法提升批量插入速度的原理是,将传统的:insert 语句进行for循环进行处理

INSERT INTO `patInfo` (`field1`, `field2`) VALUES ("data1", "data2");
INSERT INTO `patInfo` (`field1`, `field2`) VALUES ("data1", "data2");
INSERT INTO `patInfo` (`field1`, `field2`) VALUES ("data1", "data2");
INSERT INTO `patInfo` (`field1`, `field2`) VALUES ("data1", "data2");

转化

INSERT INTO `patInfo` (`field1`, `field2`) 
VALUES ("data1", "data2"),
("data1", "data2"),
("data1", "data2"),
("data1", "data2");

乍看上去这个foreach没有问题,但是经过项目实践发现,当表的列数较多(20+),
以及一次性插入的行数较多(5000+)时,整个插入的耗时十分漫长,达到了14分钟。

而我们自定义jdbc方法时是可以支持批量的更新,聚集操作,批量操作

网上资料反馈:

Untitled

从资料中可知,默认执行器类型为Simple,会为每个语句创建一个新的预处理语句,也就是创建一个PreparedStatement对象。

在我们的项目中,会不停地使用批量插入这个方法,而因为MyBatis对于含有<foreach>的语句,无法采用缓存,那么在每次调用方法时,都会重新解析sql语句。

Untitled

从上述资料可知,耗时就耗在,由于我foreach后有5000+个values,所以这个PreparedStatement特别长,包含了很多占位符,对于占位符和参数的映射尤其耗时。并且,查阅相关资料可知,values的增长与所需的解析时间,是呈指数型增长的。

所以,如果非要使用 foreach 的方式来进行批量插入的话,可以考虑减少一条 insert 语句中 values 的个数,最好能达到上面曲线的最底部的值,使速度最快。一般按经验来说,一次性插20~50行数量是比较合适的,时间消耗也能接受。

SqlSession session = sqlSessionFactory.openSession(ExecutorType.BATCH);
try {
    SimpleTableMapper mapper = session.getMapper(SimpleTableMapper.class);
    List<SimpleTableRecord> records = getRecordsToInsert(); // not shown
 
    BatchInsert<SimpleTableRecord> batchInsert = insert(records)
            .into(simpleTable)
            .map(id).toProperty("id")
            .map(firstName).toProperty("firstName")
            .map(lastName).toProperty("lastName")
            .map(birthDate).toProperty("birthDate")
            .map(employed).toProperty("employed")
            .map(occupation).toProperty("occupation")
            .build()
            .render(RenderingStrategy.MYBATIS3);
 
    batchInsert.insertStatements().stream().forEach(mapper::insert);
 
    session.commit();
} finally {
    session.close();
}

即基本思想是将 MyBatis session 的 executor type 设为 Batch ,然后多次执行插入语句。就类似于JDBC的下面语句一样。

Connection connection = DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=UTF-8&useServerPrepStmts=false&rewriteBatchedStatements=true","root","root");
connection.setAutoCommit(false);
PreparedStatement ps = connection.prepareStatement(
        "insert into tb_user (name) values(?)");
for (int i = 0; i < stuNum; i++) {
    ps.setString(1,name);
    ps.addBatch();
}
ps.executeBatch();
connection.commit();
connection.close();

经过试验,使用了 ExecutorType.BATCH 的插入方式,性能显著提升,不到 2s 便能全部插入完成。

诊后管理代码:zhgl-management : com/iflytek/zhgl/management/core/batis/DefaultSqlInjector.java:22

综上所述,如果MyBatis需要进行批量插入,推荐使用 ExecutorType.BATCH 的插入方式,如果非要使用<foreach>的插入的话,需要将每次插入的记录控制在 20~50 左右。在满足批量插入的业务情况下,该组件完全可以复用,且提高了插入及更新的效率