概述
客户的需求是处理将各种渠道收集上来的json文件,实现 阅读json->查询数据是否存在->写入数据库 的动作。
过程
向客户建议这个数据量用Navicat之类的工具就能处理,客户表示这次作业是面向业务部门poc,1w+的数据量是测试数据,后续还有万亿级别的json文件,而且还有数据过滤和清洗的要求,都要求在入库前完成。
写了两个脚本,连接数据库的脚本a、处理数据的脚本b吗;
第一次读取json并写入:
再次读取,检查是否会重复输入:
检查一下数据表,没有问题:
总结
先演示等业务部门提问题吧,两个脚本写得像屎山,计划p2再更新代码;
参考
deepseek,20251117