科研Cozer:扣子助力科研数据收集

278 阅读9分钟

最近分享了挺多扣子(Coze)平台的小案例,大家应该可以体会到扣子就像一个有智慧的助手、伙伴一样,可以帮助我们做很多事情。当然,前提是我们需要清晰准确的告诉它去做什么。

那么,今天我们就深入到具体领域,看看扣子在科研数据收集上,能够帮我们做些什么吧。虽然分享主题是科研,但是我们工作生活中收集任何数据,其实都可以按照这个模式进行。

本文是“领域实践”专栏的第一篇文章,该专栏文章以实际场景进行模拟分享,内容会较多,但是分篇效果感觉不是很连贯,因此,本专栏文章会把一些前面讲过的技术细节进行省略,着重于大的流程与思路。当然关键点的技术细节还是会详细说明的,如果大家还有什么疑问,或者有什么遗漏的,欢迎在评论区交流。

任务目标

让扣子从多篇新能源汽车销量报告中提取出每个月的销量、份额,并写入飞书多维表格。

资料正文大体如下:

新能源车(BEV/PHV/FCV)市场份额

本报告共介绍15个国家的新车销量,其中包括销量覆盖全球总销量(注1)约83%的12个主要国家,以及3个北欧国家(注2)(MarkLines统计数据,不包括商用车,含推测值),并分析全球市场新能源车(BEV/PHV/FCV)的趋势。

12个主要国家:中国、美国、日本、印度、德国、法国、巴西、英国、韩国、加拿大、意大利、泰国

3个北欧国家:挪威、瑞典、芬兰

这15个国家在全球新能源车销量中的占比约为90%。

(注12024924日统计  
历史数据有部分修正。  
部分数据含推测值。  
中国销量(工厂出货量)为不含出口量的合计数据。

(注2)北欧各国电动化程度高的原因  
1.国民环保意识高  
2.水电、风电等可再生能源发电比例高(将丰富的可再生能源用于新能源车)  
3.补贴、税收优惠、充电基础设施建设等扶持政策  
4.新能源车型阵容庞大

主要12国和挪威、瑞典与芬兰这3个北欧国家(共15个国家)20248月新能源车销量为126.6万辆,同比增长16.4%,环比增长7.1%。8月新能源车份额为25.8%,环比增加1.7个百分点,同比增加4.6个百分点,超越2023年12月创纪录的24.6%,创历史新高。1-8月新能源车累计销量同比增长21.7%达860.0万辆,占汽车总销量的21.7%。

8月混动车(HV)销量同比增长9.0%达36.2万辆,环比下降9.2%,市场份额环比减少0.7个百分点至7.4%。1-8月混动车累计销量同比增长15.2%达309.2万辆,占汽车总销量的7.8%。

820日,欧盟委员会公布了对中国产电动汽车加征反补贴税的草案,将在现行10%进口关税基准上,分别对比亚迪、吉利、上汽加征17.0%、19.3%、36.3%的关税税率。此外,对配合调查的汽车厂商加征21.3%,对不配合调查的汽车厂商加征36.3%,并单独针对从上海工厂出口的特斯拉征收9%的关税税率。中方曾于8月9日就该关税加征措施向世贸组织提起诉讼,并表示即使在20日草案公布后也将维持坚决反对态度。中方表示,该关税加征措施是欧盟基于肆意调查的一意孤行,并没有得到双方的共同承认,并呼吁欧盟通过磋商妥善解决问题。

826日,加拿大宣布自101日起对中国产电动汽车加征100%关税。此外,美国贸易代表办公室(USTR)于9月13日宣布,已最终确定对中国产品大幅提高关税。电动汽车关税将从25%提高到100%,电动汽车锂离子电池关税将从7.5%提高到25%。预计中国产电动汽车所处局势将越发复杂。

文章链接:

https://www.yuque.com/dongpengfei-r0ewy/gsufl5/zoyip45v11en9inb?singleDoc
https://www.yuque.com/dongpengfei-r0ewy/gsufl5/iga4odg1bxxppn68?singleDoc
https://www.yuque.com/dongpengfei-r0ewy/gsufl5/obrqoy8sdb0cwgpw?singleDoc

前置准备

  • 注册并登录扣子平台。

  • 本文整体思路的具体操作在前面文章中有所设计,如果有需要,可以回顾一下。

    使用扣子实现一个文章收集智能体(升级版) - 掘金

    前面这篇文章主要流程如下:

    1. 通过插件从链接中获取标题、正文。

    2. 通过大模型将标题、正文改造为飞书多维表格所需格式。

    3. 通过飞书多维表格插件将标题正文写入飞书多维表格。

具体步骤

飞书表格调整

根据本次分享目标建立对应的多维表格,

  • 销量、份额两列为数字类型,保留1位小数
  • 其它字段都为文本类型

截图如下:

image.png

智能体

建立智能体

智能体选择“单Agent(LLM模式)”,原因有二:

  • 一是工作流可以有多个参数,能够支持更加复杂的场景。
  • 二是后续可以持续新增工作流,只需要在人设与回复逻辑中新增技能即可。

本次分享智能体的人设与回复逻辑如下:

# 角色
你是一位专业且经验丰富的科研数据处理人员,能够熟练运用各种数据分析方法和工具,高效地从资料中提取出所需的科研数据。

## 技能
### 技能 1: 从链接中提取数据
1. 当用户仅给出一个链接时,调用<keyanshujuchuli>工作流进行处理。

## 限制:
- 只处理与科研数据相关的任务,拒绝回答与科研数据无关的话题。

设置完智能体后,建立相应的工作流keyanshujuchuli

绘制工作流

还是分解为子任务进行实现,这样有助于我们调试智能体功能,防止完整的流程太过复杂,出现问题的时候不方便定位问题。

简单分为如下几个子任务:

  1. 从链接中提取指定数据
  2. 转换格式为飞书多维表格所需
  3. 写入飞书多维表格

这是最终的工作流,供大家参考:

提取指定数据

image.png

结构和前面文章类似,整体是一个批处理的架子,只是最近扣子平台有升级,界面元素可能和之前不太一样了,尤其是批处理的显示方式。

  • 拆分多个链接:文本处理节点,主要支持输入多个链接,采用回车分隔。
  • 读取链接:插件节点,这次仅保留正文内容
  • 提取指定目标数据:大模型节点,主要从正文中找到指定目标的数据,并格式化。

提取指定目标数据

记得输出是Json格式。

image.png 系统提示词:

# 角色
你是一位专业且经验丰富的科研数据处理人员,能够熟练运用各种数据分析方法和工具,高效地从资料中提取出所需的科研数据。

## 技能
### 技能 1: 提取指定目标数据
1. 帮助用户从给出的资料中提取指定目标的数据,多个指定目标,请用|分隔。
2. 务必确保数据的准确性,不能有精度丢失。
3. 为了后统计方便,数据提取出来后仅保留数字部分,单位单独保存。
4. 数据内容如果出现万,拼接到单位中,不放在数字中。
5. 具体的数据内容如果是数字,不使用英文双引号包裹,如果是非数字,使用英文双引号包裹。
===回复示例===
{
"<指定目标1>": <具体的数据内容1>,
"<指定目标2>": <具体的数据内容2>
}
===示例结束===

## 限制:
- 只处理与科研数据相关的任务,拒绝回答与科研数据无关的话题。
- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。
- 如果未找到数据,返回“未找到目标数据”,不能随意编造。

用户提示词,input为传递给大模型的正文变量:

资料内容:
{{input}}
指定目标:
年月|销量|销量单位|份额|份额单位

这里为了分享方便,指定目标写死了,其实可以作为变量,每次指定不同的目标的。

验证一下

image.png

写入多维表格

image.png

主要增加两个节点:

  • 转换文本格式:大模型节点,负责把上一步提取出来的数据转换为飞书多维表格要求的格式。
  • 写入飞书多维表格:插件节点,负责写入飞书多维表格,在前文链接中有详细介绍。

使用扣子实现一个文章收集智能体(升级版) - 掘金

转换文本格式

直接仿照前文中的提示词修改即可,提示词如下。

## 任务
将给定内容转换格式输出。

## 要求
- 不要改变输入的文本内容。

## 步骤
1. 将{{input}}中所有的英文逗号替换为中文逗号,以免后续拼接歧义。
2. 剔除正文中所有的换行符`\n`。
3. 返回```中的内容,
```
[
    {
      "fields": {{input}}
    }
]
```。

## 输出
参考案例如下:
[
    {
      "fields": {
        "份额":25.8,
        "份额单位":"%",
        "年月":"2024年8月",
        "销量":126.6,
        "销量单位":"万辆"
        }
    }
]

关键是输出格式记得修改。

image.png

写入飞书多维表格

插件参数关键的只有两个:

  • app_token:填写飞书文档地址即可。
  • records:上一步转换文本格式的输出。

image.png

最终效果

image.png

image.png

写入飞书多维表格第一次需要授权,如果第一次写入不成功可以看下输出是否有授权提醒。

总结

因为分享原因,一些功能做了简化,测试的资料也比较少,只用了3个,但大家应该可以体会到扣子在科研数据收集场景下给我们带来的提升,大家可以基于这个智能体继续进行深化。

如果有什么疑问,或者好的想法,随时在评论区交流。