[python,mariadb,json] 用python处理1w+数据量的json文件 p1

18 阅读1分钟

概述

客户的需求是处理将各种渠道收集上来的json文件,实现 阅读json->查询数据是否存在->写入数据库 的动作。

过程

向客户建议这个数据量用Navicat之类的工具就能处理,客户表示这次作业是面向业务部门poc,1w+的数据量是测试数据,后续还有万亿级别的json文件,而且还有数据过滤和清洗的要求,都要求在入库前完成。

写了两个脚本,连接数据库的脚本a、处理数据的脚本b吗;

第一次读取json并写入:
1.png

再次读取,检查是否会重复输入:

2.png

检查一下数据表,没有问题:

3.png

总结

先演示等业务部门提问题吧,两个脚本写得像屎山,计划p2再更新代码;

参考

deepseek,20251117