本文作者:杨辉,TRAE 战略分析师
本文来自 TRAE 团队的战略分析同学,他将从“什么是数据分析”以及“数据分析的常见痛点”这两个基本问题出发,结合两个真实数据分析场景,带大家实际操作如何使用 IDE 进行数据分析。让更多的非开发背景的同学也能轻松应对复杂的数据分析任务。
本文实践操作版本:TRAE 中国版
模型选择:Auto 模式
什么是数据分析?
数据分析是指通过收集、清洗、整理、分析和解读数据,提取有价值信息、挖掘数据规律,从而为决策提供依据的过程。它核心价值在于将零散的数据转化为可落地的洞察,助力不同领域解决问题、优化流程、提升效率。
在众多职业(例如咨询、金融、互联网)场景中,数据分析都是不可或缺的核心能力。
数据分析常见痛点
在数据分析工具发展的早期阶段,Excel 是绝大多数从业者的首选工具。它操作门槛低、功能全面,既能完成数据的录入、清洗和计算,也能通过数据透视表快速汇总分析数据 ,还支持柱状图、折线图、饼图等多种图表制作,将复杂的数据结果可视化呈现,满足了日常工作中基础的数据分析需求。
对于简单的数据汇总(数据量级 < 1 万行),Excel 通常较为流畅,操作响应秒级,但是当数据量级超过 1 万行甚至 10 万行时,Excel 开始变慢,筛选、排序、数据透视表等操作耗时延长(秒到分钟级) 。当表格里有大量VLOOKUP、SUMIFS、数组公式,或是跨表引用、嵌套函数时,甚至出现文件崩溃的情况,通常需要关闭自动计算(改为手动计算),并且频繁保存,否则文件崩溃会导致几个小时的工作量白费。
数据分析本是一项对技术能力有较高要求的专业工作,但在 AI 编程技术的赋能下,非技术背景的从业者也能借助 AI IDE 高效完成从数据处理、深度分析到可视化呈现的全流程,彻底突破 Excel 在复杂场景下的应用瓶颈。
例如,用户无需再记忆繁杂的公式或代码语法,只需用自然语言描述分析需求,AI 就能自动拆解任务、生成代码并输出精准结果。无论是基础的数据清洗(如读取 CSV 文件并处理重复值)、业务指标计算(如按区域汇总销售额),还是更复杂的可视化呈现(如用折线图展示月度趋势)与进阶的预测分析(如通过时间序列算法预测未来销量),都能通过简单的自然语言指令快速实现——而在过去,这些能力对非技术人员而言几乎是难以企及的。
一言以蔽之,AI 让数据分析告别 “专业壁垒”,成为所有非专业人员都能零门槛上手的实用工具。
为什么用 TRAE 做数据分析
我们把 Excel、ChatGPT、TRAE IDE 基于数据分析的场景进行了多维度对比,可以发现 IDE 在效率、适配性与智能化上全面超越 Excel 与 Chatbot(例如 ChatGPT):
和 Excel 相比
-
性能无上限: 轻松驾驭 10 万行甚至百万行数据,彻底告别 Excel 处理大数据时的卡顿、假死与崩溃风险。
-
零代码分析范式: 告别复杂的 VLOOKUP、SUMIFS 嵌套或 VBA 脚本。通过自然语言指令即可驱动分析,让非技术人员也能完成高阶统计。
-
端到端流程自动化: 实现从原始清洗、多维分析到可视化呈现的一键式串联,将原本碎片化的操作转化为自动化的数据流水线。
-
逻辑沉淀: 分析过程不再是不可逆的手动点击,而是自动生成可复用的分析脚本。今年的分析模型,明年新数据只需一键运行即可复用。
和 ChatBot 类型的产品相比
-
操作便捷灵活: 原生支持超大文件及多个分散文件的关联处理,无需手动切分或反复上传,直接在本地工作区起步。
-
项目理解满分: 具备项目级上下文理解能力,深度关联历史分析逻辑与业务标签,避免了 Chatbot 常见的重复沟通与上下文断裂。
-
中间逻辑可追溯、可追问: 拒绝“结果黑盒”,你可以针对分析过程中的任何中间步骤进行追问和校验(如:“为什么这么过滤?”),确保逻辑百分之百准确。
-
分析产出持久化: 支持将图表与分析结果直接转化为多格式持久化文件。这种“产出即资产”的能力,为深度分析与跨工具协作提供了坚实的工程基础。
-
多工具协同执行: 凭借智能推理与多工具协同,不仅精准识别需求,更能自动配置环境并执行代码,实现真正闭环的 AI 分析体验。
实操
Stack Overflow 开发者调研是一份面向全球开发者的问卷报告,调研当前开发领域的技术趋势与核心痛点等。他们每年会将源数据发布在其官网 survey.stackoverflow.co/
本教程以 Stack Overflow 2025 年开发者调研数据为例,演示如何用 TRAE 完成全流程数据分析。
工具安装与数据准备
-
下载安装 TRAE : 访问 TRAE 官网(www.trae.com.cn),下载安装包,按引导完成安装,用手机号账号登录即可。
-
打开 TRAE SOLO 模式: TRAE 目前提供 SOLO 和 IDE 两种模式,本次我将选择 TRAE SOLO 模式来完成需求。
SOLO 和 IDE 模式的区别:
-
SOLO:AI 主导全流程,自动拆解任务、调度工具,开发者仅需提需求、审核成果
-
IDE:开发者主导,AI 提供代码补全、智能问答等辅助,保留传统开发流程,掌控感更强
SOLO 有 2 个选项,分别为 SOLO Builder 和 SOLO Coder,我们本次选择 SOLO Coder,其中的 Plan 模式也为分析方案的讨论提供了很大便利。
SOLO Builder 和 SOLO Coder 的区别:
-
SOLO Coder: 适合已有复杂项目的迭代、重构、Bug 修复,可自主规划、执行多步任务
-
SOLO Builder: 适合从 0 到 1 完整项目的快速原型验证,从需求分析到部署全流程自动化
单文件数据分析场景
数据准备
从 survey.stackoverflow.co/ 下载 Stack Overflow 2025 调研数据集,包含「受访者基本信息、技术使用习惯、AI 工具态度」等维度,将数据集保存至本地文件夹(例如 “StackOverflow2025” ),方便后续 TRAE 进行读取。
需要注意的是,要单独创建一个文件夹,将下载下来的数据集保存在这个文件夹内,而不是直接打开excel文件。
选择「打开项目」,找到对应文件夹打开。
开始数据分析
1. 直接在对话框里输入指令,指令可以简单(例如“帮我分析一下这个数据集”) ,也可以更细节具体,可以参考下方,这一步是为了让 AI 清晰自己的角色定位。
「我是数据分析师,需要分析Stack Overflow 2025开发者调研数据。
请读取本地文件夹“StackOverflow2025”中的CSV文件,查看数据的前10行、字段列表、数据形状(行数/列数),统计各字段的缺失值数量,生成基础信息报告。
注意处理中文编码问题,避免乱码。」
2. 从官网下载的数据是 zip 文件,无需人工手动解压, AI 自己会解压并使用 Python 来读取和分析数据;大概经过 2 分钟,AI 会显示初步分析结果,例如 数据基本情况、开发者画像、AI 工具使用情况、薪资情况以及技术使用情况等多个方面
- 从初步的分析返回结果来看,我们可以发现一些有趣的下钻分析的维度,例如:
a. 年龄分布和薪资情况是否有关系
b. 最常用的编程语言和薪资情况是否有关系
c. 工作满意度和薪资情况是否有关系
4. 原始数据里有个字段是“国家”,因为字段较多,所以 AI 在最开始的描述性统计时没有提到,但如果期望补充更多下钻分析的维度,可以直接问 AI
「分析一下不同国家的薪资分布(看一下前10国家,按调研用户数量排序,薪资中位数,均值和25/75分位数,全部换算为美金)」
5. 可以交叉“国家”和“开发者身份”,分析薪资分布情况
「分析一下不同国家、不同开发者身份的薪资分布(看一下前10国家,前一下前10开发者身份,按调研用户数量排序,薪资中位数,均值和25/75分位数,全部换算为美金)」
生成数据分析图表
数据分析常常需要结合图表,可以更加直观展示数据情况。
直接在对话框里输入指令,指令可以简单(例如“帮我画一个 XX 图”) ,也可以更细节具体,可以参考下方。
「帮我画一个热力表,横轴是国家(按中文名称),数轴是开发者类型(简写),数值是薪资平均值」
「帮我画一个图,展示每个国家的25/75/中位数 薪资,只需要展示前10国家即可」
「帮我画一个气泡图,横轴是薪资均值(单位是美金),数轴是每日使用过AI的占比,大小是开发者调研用户数量,展示前10国家,气泡大小适中,注意美观」
数据分析结果导出
除了数据分析和画图外,我们也可以将分析结果储存为 CSV 、Excel 等格式方便后续阅读和处理数据,或者让其将完整报告存储为 MD、PDF、 PPT 等格式方便阅读文文字内容。以 csv 为例,
「帮我把每个国家的调研人数,薪资中位数,25/75分位数和均值导出为csv+」
总结
以上分析只是这个数据集的一部分,还有其他分析维度例如 AI 工具使用率分析、编程语言偏好分析、工具偏好与 AI 使用关联性等,大家可以自行修改提示词探索。
跨文件分析场景
有时候数据分散在不同的文件,而我们需要将不同文件之间的数据对比结合起来分析,因此会有跨文件分析的场景。
数据准备
从 www.kaggle.com/datasets/re… 下载 Retailrocket recommender system dataset 数据集;该数据集包含四个文件:一个存储用户行为数据的文件(events.csv)、两个存储商品属性数据的文件(item_properties_part1.csv 和 item_properties_part2.csv),以及一个描述类目层级结构的文件(category_tree.csv);无需手动解压,可以直接把数据集保存至本地文件夹(例如 “电商推荐” ),方便后续 TRAE 进行读取。
选择「打开项目」,找到对应文件夹打开。
开始数据分析
1. 直接在对话框里输入指令,指令可以简单(例如“帮我分析和总结一下这个数据集”) ;可以看到三个文件里,ategory_tree.csv 是商品类别树结构(1670 行);events.csv 是户行为事件(276 万行),主要是三类事情:浏览、加入购物车和交易;item_properties 是商品属性(2000 万行),包含多种属性类型
2. 我们可以先针对单个文件夹做一些下钻分析,例如:
a. 下钻分析商品类别树分布,可以看到顶级类别数量为 25 个,最深层级为 6 层,层级 3 和层级 4 是最主要的层级,共占 81.90%,平均每个父类别有 4.54 个子类别,中位数为 4,表明类别结构比较均衡
b. 下钻分析用户行为数据,可以看到共计 141 万个用户和 276 万条记录,平均一个用户有 1.96 条记录;71%的用户仅 1 条记录,27%的用户有 2-10 条记录,1.4%用户有超过 10 条记录;从事件类型看,浏览占比 96.67%,加入购物车为 2.52%,购买为 0.81%;浏览从加入购物车转化比例为 2.60%,加入购物车到交易为 32%
c. 下钻分析商品属性数据,可以看到共计 2000 万条属性记录,涉及 40 万商品,平均一个商品 3 个属性;除了库存(available)和类目(categoryid)这两个属性外,其他属性都被哈希;最常用的前 10 个属性使用占比基本都是 100%
3. 除了单个文件下钻分析外,我们也可以交叉三个文件进行分析,例如按顶级类别看下从浏览到加入购物车到交易的转化比例:可以看到平均转化率为 0.91%,3 个类别(140、1224、859)转化率高于 1%,11 个类别转化率低于 0.5%,其他介于 0.5-1%;7 个类目的浏览量低于 1000,其中 2 个浏览量为 0
「按25个顶级类别看下从浏览到加入购物车到交易的转化比例(浏览事件粒度,不是商品或者用户粒度,如果一个商品的类别有过变化,用最新的类别)」
生成数据分析图表
可以直接在对话框里输入指令,例如:
「帮我画一个图,按top 10顶级类别浏览到加入购物车,加入购物车到交易的比例,并在图表的上方,加上每个类目的浏览、加购、交易次数」
「帮我画一个气泡图,横轴浏览到加购的转化,竖轴是加购到购买的转化,大小是浏览量级,只需要画按浏览量前10个顶级类别」
数据分析结果导出
「把以上top 10 顶级类别的气泡图导出为ppt」
可以发现,TRAE 会使用 matplotlib 绘制相关气泡图,截屏然后插入ppt里面,而没有使用PPT原生画图能力。
当然你也可以通过提示词「请帮我在 PPT 里面直接画图,而不是复制图片」,TRAE 也能调用 PPT 相关能力进行构图,但画出来的图片美观度略有不足,只能达到基本要求。
以上分析只是这个数据集的一部分,还有其他分析维度例如其他属性对购买转化比例的影响等,大家可以自行修改提示词探索。
写在最后
无论是咨询项目(例如银行压力测试、消费品市场趋势分析等),还是互联网场景下的数据任务(例如分国家用户留存分析、付费转化漏斗搭建等),基本都能通过 AI IDE 高效落地。AI IDE 在数据挖掘与深度分析环节的表现堪称出色,能精准完成核心任务;仅在最终数据可视化呈现的细节优化上,偶尔需要少量辅助调整,但其整体交付质量大多超出预期,大幅提升了数据分析的效率与专业性。
IDE 从来不是专业开发者的专属工具,它可以离每个人的工作和生活都更近一些。借助 AI 的能力,我们不必精通复杂的编程语言,也能把一个个灵感和想法变成真正可落地的“数字小帮手”;不管你是产品、运营、数据分析、设计师,还是任何一一个角色,都可以用 AI Coding 去搭建属于自己的智能工作台。
期待多样化的你带来更多不一样的 AI Coding 实现!