千万级数据表格合并40秒搞定 | 无需编程 | CSV/Excel多文件合并工具 | DT-Bot工作流

0 阅读3分钟

在千万量级大数据处理时,我们经常需要将多个 CSV 或 Excel 文件合并成一个总表。无论是月度销售报表、班级成绩单,还是多渠道客户数据,手动复制粘贴不仅耗时,还容易出错。

今天我们介绍一下如何在本地电脑进行表格合并,千万级数据量合并只需要40s左右。

一、表格合并简介

“表格合并”,可以将多个数据源文件(CSV/XLSX)合并成一个大的 CSV 文件。

  • 标题一致合并: 若各文件标题一致,直接把文件上下叠在一起,列的顺序不变。
  • 标题不同合并:若标题不一致,把所有出现的列都保留,没有数据的单元格留空。

标题一致合并举例:

标题不同合并举例:

二、解决方案

传统的数据处理方案可以通过编写Python脚本,来实现多表格文件的合并。但是,当数据量大时,会面临内存溢出和长时间跑不出结果的困境。

况且今天我讲解的方法,你不需要懂任何编程技术,轻松就能实现。

首先打开了DT-Bot工作流, 配置一个 “文件处理”智能体节点,用来获取要合并的所有文件,如下图配置:

解决方案获取: 宫中&浩气: “老罗软件”。

填写提示词就行了, 描述如何能获取到你的文件。 下面是我的csv案例文件:

每个文件200w数据, 合并起来刚好1000w数据。
配置好文件助手,我们就获取到了待合并的文件了, 然后我们在直接挂一个“表格合并”的智能体节点,如图:

可以输入合并后的文件名称,这里我们就默认。
就不用输入任何参数,系统会自动取上一个文件助手的输出文件进行合并,我们只需要保存然后进行发布。
然后开始执行工作流,点击启动工作流:

执行完成后, 耗时:43s。

然后我们在“表格合并”节点右键 , 点击预览结果,在弹出的对话框 就可以打开结果文件,如图:

结果文件大小3.38GB. 数据预览:

三、实现原理

输入CSV文件的兼容

csv文件一般都很不稳定,编码,文件分隔符都不一样! 我们实现了一套商业级别的csv文件识别系统,无论csv文件时什么编码格式,以及分隔符号是逗号,\t等,都是完美支持的。

支持的数据量级没有上限

数据合并的支持数据量是没有上限的,只要你磁盘的空间足够大。得益于我们采用了流式的读取解决方案。每次加载数据不是全部加载到内存,而是一批一批的加载,保证了速度和内存安全。

速度优势

读取过程中其实会有很多要解决的问题, 每个csv的编码,分隔符都不是统一的,为了保证准确性和速度,我们充分利用了CPU资源,进行分片处理,最后进行合并。

工作流处理

这个功能是集成到工作流里面,是支持一套完整的数据处理统计流程的。用户一次配置,后续直接启动工作流就可以了。

四、总结

如果您不懂任何编程语言,请按照我文章的教程来试一试,数据表格自动化处理教程。有问题可以联系我,我们一块探讨。