MySQL 批量插入,如何不插入重复数据?

547 阅读2分钟
业务

需要批量插入一些数据,数据来源可能是其他数据库的表,也可能是一个外部的Excel的导入

问题

是不是每次插入之前都要查一遍,看看重复不重复,在代码里面筛选一下数据,重复的就过滤掉呢?向大数据库中插入值时,还要判断插入值是否重复,然后插入,如何提高效率看来这个问题很苦恼。

解决方法
方法一:insert ignore into

当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回。所以使用ignore请确保语句本身没有问题,否则也会被忽略掉,这种方法很简便,但是有一种可能,就是插入不是因为重复数据报错,而是因为其他原因报错的,也同样被忽略了~

INSERT IGNORE INTO user (name) VALUES ('telami')
方法二: on duplicate key update

当primary或者unique重复时,则执行update语句,如update后为无用语句,如id=id,则同1功能相同,但错误不会被忽略掉。

例如,为了实现name重复的数据插入不报错,可使用一下语句:
INSERT INTO user (name) VALUES ('telami'ON duplicate KEY UPDATE id = id
这种方法有个前提条件,就是,需要插入的约束,需要是主键或者唯一约束(在你的业务中那个要作为唯一的判断就将那个字段设置为唯一约束也就是unique key)。
方法三:insert … select … where not exist

根据select的条件判断是否插入,可以不光通过primary 和unique来判断,也可通过其它条件。例如:

INSERT INTO user (name) SELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)

insert into 表名 (需要判断的字段名) select 需要插入的值 from dual where not exists (select 需要判断的字段 from 表名 where 字段名 = 插入的值)

insert into allusers (username) select 'hs' from dual where not exists (select username from allusers where username = 'hs')

这种方法其实就是使用了mysql的一个临时表的方式,但是里面使用到了子查询,效率也会有一点点影响,如果能使用上面的就不使用这个。

方法四:replace into

如果存在primary or unique相同的记录,则先删除掉。再插入新记录。

REPLACE INTO user SELECT 1'telami' FROM books

这种方法就是不管原来有没有相同的记录,都会先删除掉然后再插入。

实践:选择的是第二种方式


<insert id="batchSaveUser" parameterType="list"> 
    insert into user (id,username,mobile_number) 
        values 
     <foreach collection="list" item="item" index="index" separator=",">            
         ( #{item.id}, #{item.username}, #{item.mobileNumber} )
     </foreach> 
     ON duplicate KEY UPDATE id = id                      
 </insert>

这里用的是Mybatis,批量插入的一个操作,mobile_number 已经加了唯一约束。这样在批量插入时,如果存在手机号相同的话,是不会再插入了的。