如何用提示词完成 CSV/Excel 表格拆分?千万级数据拆分实践总结 | DT-Bot工作流

0 阅读4分钟

在千万量级大数据处理时,我们经常需要将一个大的CSV或Excel文件,根据某一列或某几列的业务逻辑,拆分成多个独立的子表。无论是按省份拆分客户数据、按月份拆分销售记录,还是按部门拆分员工信息,手动筛选复制不仅耗时,还容易出错。

今天我们介绍一下如何在本地电脑进行表格拆分,千万级数据量拆分只需要40秒左右。

一、表格拆分简介

表格拆分可以将一个大的数据源文件(CSV / XLSX),根据指定列的唯一值,快速拆分成多个独立的 CSV 文件。

为了适配复杂多样的拆分场景,我们借助 AI 智能理解 你的拆分意图。你只需输入自然语言提示词,即可轻松实现各种拆分逻辑。

拆分提示词示例

  • 按“水果”列拆分,每种水果一个文件。
  • 通过“销售额”值拆分成低(500以下)、中(500-2000)、高(2000以上)三个区间。
  • 先从“日期”列(格式:1月6日)中提取出日号,再按上旬、中旬、下旬拆分成三个文件。4. 先判断“退货标记”是否为“是”,再拆分成“正常订单”和“退货订单”两个文件。
  • 先结合“天气”和“温度”判断场景,例如高温天、低温天、雨天,再按场景拆分文件。
  • 按“销售额”排序后,把前 1000 条高销售额记录拆成一个文件,其余数据放到另一个文件。
  • 先按“水果”汇总总销量,识别出销量前 10 的水果,再把原始数据拆成“TOP水果数据”和“其他水果数据”两个文件。
  • 先根据“毛利率”计算盈利等级,拆分成“高毛利、中毛利、低毛利”三个文件。
  • 按“区域 + 门店”组合拆分,每个区域门店组合输出一个单独文件。

 

二、解决方案

传统的数据处理方案可以通过编写Python脚本,来实现多表格文件的拆分。但是,当数据量大时,会面临内存溢出和长时间跑不出结果的困境。

况且今天我讲解的方法,你不需要懂任何编程技术,轻松就能实现。

首先打开了DT-Bot工作流, 配置一个 “文件助手”智能体节点,用来获取要拆分的文件,如下图配置:

image

解决方案获取: 宫中&浩气: “老罗软件”。

配置好文件助手,我们就获取到了要拆分的文件了, 然后我们在直接挂一个“表格拆分”的智能体节点,如图:

image

不用输入任何参数,系统会自动取上一个文件助手的输出文件进行拆分,我们只需要保存工作流然后进行发布。

然后开始执行工作流, 执行耗时40秒,如图:

image

结果文件已经按照每个水果名称一个文件拆分出来了,如图:

image

 我们再来看下其它的案例。

1. 通过“销售额”值拆分成低(500以下)、中(500-2000)、高(2000以上)三个区间。

提示词配置:

image

我们直接看拆分结果,如图:

image

2. 先从“日期”列(格式:1月6日)中提取出日号,再按上旬、中旬、下旬拆分成三个文件。

image

3. 先判断“退货标记”是否为“是”,再拆分成“正常订单”和“退货订单”两个文件。

image

三、实现原理

拆分业务简化

通过AI引擎层,我们将用户复杂的拆分逻辑进行了整合,用户只需描述自己如何拆分就可以了,完全不用配置复杂的拆分逻辑。

支持的数据量级没有上限

数据拆分支持的原始表格数据是没有上限的,但是拆分输出的文件上限3000个。我们采用了流式的读取解决方案。每次加载数据不是全部加载到内存,而是一批一批的加载,保证了速度和内存安全。

速度优势

为了保证准确性和速度,我们充分利用了CPU资源,进行分片处理拆分,速度是现有软件的佼佼者。

工作流处理

这个功能是集成到工作流里面,是支持一套完整的数据处理统计流程的。用户一次配置,后续直接启动工作流就可以了。

 

四、总结

如果您不懂任何编程语言,请按照我文章的教程来试一试,数据表格自动化处理教程。有问题可以联系我,我们一块探讨。