2024年百度商业AI技术创新大赛冠军经验分享——行业智能体搭建

227 阅读27分钟

赛题背景

任务说明

  • 本次大赛使用文心智能体平台采用零代码或低代码的形式进行智能体搭建,在给定的三个方向中选一个智能体题目参赛
  • 智能体的创建需深入洞察目标用户的诉求,并据此设计和实施解决方案以丰富智能体的回答能力,同时有效利用文心智能体平台的官方API工具,或是开发必要的插件来扩展智能体的能力。鼓励参赛者在满足基本要求的基础上,进一步探索创新,以打造更智能、更懂用户、体验更好的智能体。

赛题方向

  • 出国咨询: 创建一个模拟留学服务老师的智能体,专为大学生解答出国留学相关的咨询问题,提供详细的信息和个性化指导。智能体应具备全面的留学知识,能够理解大学生需求,提供包括院校选择、申请流程、签证指导等在内的专业咨询服务。需要增加限制,拒绝回答智能体设定无关的问题。
  • 就业规划: 设计一个智能体,模拟公务员考试咨询老师,专门解答学生关于公务员考试的各类问题,提供准确信息和实用建议,确保智能体掌握公务员考试流程、政策变动及备考策略,以提供专业、及时的咨询服务。需要增加限制,拒绝回答智能体设定无关的问题。
  • 健身指导: 构建一个智能体,扮演专业健身教练角色,解答用户关于健身训练、饮食计划及健康生活方式的问题。智能体需具备全面的健身知识,能够提供个性化训练建议,帮助用户达成健康目标。需要增加限制,拒绝回答智能体设定无关的问题。

评测标准

由评委根据上传资料进行测试,每个智能体题目测试100个通用问题对智能体的回答进行综合打分,优质回答为2分,正确为1,错误为0,智能体综合得分高为优;问题回答的优质及准确参考以下几个维度:

  • 充分理解用户意图,主动引导用户澄清需求,具备行业通识信息储备,合理准确解答用户疑问;
  • 通过与用户多轮澄清需求,给出相应的规划指导,输出用户问题的解决方案;
  • 系统操作的便捷性和用户使用友好程度,如使用敬语/无错别字等;
  • 基于赛题增加角色相关的描述,有个人特色可加分。

赛题解析

该赛道的特点是搭建直接面向用户的智能体,因此需要在技术上需要考虑智能体的核心场景,并在此基础上搭建出好用的智能体。并且三个场景中,出国咨询、就业规划都是更偏向知识运营的题目。健身指导在技术上的挥发空间更大一些,比如一些数据分析、精准计算等,因此我们选择了健身指导赛题。

全文摘要

产品思路

为了做出符合用户实际需求的健身类智能体,我们对健身用户进行了问卷调查,确认了【制定健身计划】、【热量计算】、【健身知识问答】和【线下教练推荐】4个核心场景。针对这4个场景进行了肌肉猫智能体开发。最后我们针对健身用户的核心场景,对肌肉猫智能体和其他健身Agent进行了评测。结果显示肌肉猫智能体已达到健身类领先水平。

技术思路

我们使用文心智能体平台提供的零代码框架作为"大脑"进行全局调度,并自主研发了文心智能体插件用于增强健身类Agent能力,针对健身的需求场景做出了6大插件能力:【通用健身知识RAG】、【健身计划澄清追问】、【BMI计算器】、【TDEE每日总能量消耗计算器】、【食物/健身热量计算器】、【商业化接口】。同时也有效利用了文心智能体平台的【联网搜索】能力。

image.png

产品说明书

从用户使用的角度出发,介绍肌肉猫智能体的核心亮点

产品亮点

  • 亮点1:准确的健身领域知识增强,助力回答健身知识

肌肉猫智能体内部有丰富、准确的健身知识。能更好的回答健身知识,避免出现"空泛"的回答。

如下图所示,肌肉猫智能体通过召回的知识,准确的介绍了准备活动、跑步姿态、跑步机设置。而其他智能体的回答相比较下显得较为空泛。

image.png

image.png

  • 亮点2:准确清晰的健身追问,助力基本信息澄清

为了帮助用户制定个性化的健身计划,避免看似有用实则空泛的回答。肌肉猫针对健身场景制定了一系列澄清追问的问题。在用户没有给出健身目标等基本信息的时候,会进行详细的追问。

image.png

  • 亮点3:准确的BMI和TDEE计算,助力个性化健身计划

即使提供的身高、体重等信息,现有的大模型也难以根据这些信息就制定出精准个性化的健身计划。因此,我们通过内置的插件:BMI计算器TDEE(每日总能力消耗)计算器,计算出用户的BMI和TDEE,并且给出相应的说明,从而指导智能体更精确的制定健身计划和建议热量摄入。

image.png

image.png

image.png

  • 亮点4:有源可溯的视频链接,助力直观化的健身指导

基于大语言模型的智能体有两个劣势:(1)LLM存在幻觉,用户难以信任。(2) LLM仅有文字回答,对健身类的回答难以做到直观化的展示(如:健身动作演示)。

针对这两个问题,肌肉猫智能体引入了强匹配的视频链接作为外部指导资源:用户既能得到有源可溯的信任感,又能通过点击视频链接进行直观化的健身学习。

image.png

image.png

  • 亮点5:恰到好处的联网搜索,助力时效性健身信息

大语言模型的本身的模型知识是存在时效性不强的缺点,对于专业性强的健身知识库也难以做到实时更新。因此对于时效性强的问题,肌肉猫智能体引入联网搜索能力。

image.png

  • 亮点6:线下转化的信息推荐,助力健身智能体商业化(未上线)

智能体的商业化转化一直是个难点,目前主要的方式仍是瞄准用户人群的痛点,针对性的在智能体中投放广告从而进行商业转化。针对健身人群的特点:终究会进入健身房,或者需要线下健身教练的指导。 肌肉猫智能体开放了线下商业化转化接口,可在系统内部集成合作信息,进行推荐。

image.png

竞品对比

我们选取了文心智能体平台Top1的智能体、和GPTs平台Top1的健身类智能体进行了多维度对比。结果证明目前肌肉猫智能体在多个维度上已达到领先水平。

  • 对比方式

根据需求分析,我们选取了用户较为关心的7个场景维度进行对比。针对每个场景制定了一系列的评估集,在3个智能体上进行问答。

对于【视频外链】、【BMI和TDEE计算】、【响应速度】这三个维度,我们直接进行客观的对比。判断有无功能,以及速度对比。

对于【追问澄清满意度】、【健身计划满意度】、【健身知识回答满意度】、【人格化满意度】这四个维度,我们将各问答隐去智能体名称, 让3位用户进行了盲评打分(1-3分)

  • 说明

肌肉猫智能体在多个用户重点关心的维度上已达到领先水平。但是响应速度相对较慢,这是因为RAG过程中会进行预答案的生成,但也处于可接受的状态。未来会在这一步替换为更小更快的模型,从而提升响应速度。

能力/健身类智能体肌肉猫文心平台 Top1GPTs Top1
追问澄清满意度⭐⭐⭐⭐⭐⭐
有视频外链直观展示⭐⭐⭐
准确的BMI和TDEE计算⭐⭐⭐
健身计划满意度⭐⭐⭐⭐⭐⭐⭐
健身知识回答满意度⭐⭐⭐⭐⭐⭐⭐
人格化满意度⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐

Agent结构设计

整体设计

肌肉猫智能体采用文心智能体平台的零代码平台作为"大脑"进行全局调度,并自主研发了文心智能体插件用于增强健身类Agent能力,针对健身的需求场景做出了6大插件能力:【通用健身知识RAG】、【健身计划澄清追问】、【BMI计算器】、【TDEE每日总能量消耗计算器】、【食物/健身热量计算器】、【商业化接口】。

  • 为什么选择零代码:零代码框架提供了插件接入接口,我们可以在插件中进行更复杂的逻辑开发(如BMI计算,TDEE计算等)。而低代码框架难以实现复杂的逻辑。因此我们选择了零代码开发。

  • 为什么要自研插件

    • 灵活的RAG:文心智能体平台知识库的切片、检索策略灵活性低。我们进行RAG时,希望能自己选择合适的RAG策略、切片方式、嵌入模型等。因此需要在插件内进行更高级灵活的RAG。
    • 精确的计算:LLM的计算精度至今仍是未解决的难题,而这部分完全可以使用function call的方式来进行精确计算。我们需要在插件内进行function call和计算器开发。
  1. 文心零代码平台设置

  • 平台设置

image.png

  • System Prompt

为了设计更符合用户使用的健身智能体,肌肉猫智能体根据测试集持续调优,系统Prompt更新了十余版。

最终根据插件接口的特性,采取了如下Prompt。

角色与目标:简要指明身份即可。

思考路径:这部分是重点。针对对用户信息的追问、健身计划的制定、通用健身问题的回答,肌肉猫插件的实现逻辑不同。因此,在这部分,直接在Prompt显式写出回答什么问题的时候需要调用什么插件。结果表明这种方法能极大的提升插件调用的准确性。

个性化:为了制定出语气可爱生动、用户喜欢的智能体"人格"。我们将智能体角色设置为健身教练肌肉猫,并且在个性化中设置肌肉猫的语气和常用语,赋予肌肉猫活泼可爱的性格。

 # 角色与目标
 - 你是健身教练肌肉猫,也是知名健康和营养专家,你旨在提供保持身体健康的提示和建议。
 - 鼓励用户提出问题和反馈,根据他们的实际情况进行调整和优化建议。
 
 # 思考路径
 - 制定健身计划或者饮食计划时,如果对话历史以及当前提问中没有用户的基本信息,则先调用插件generateQuery询问用户的信息。询问信息后,如果用户只回答了部分信息,请不要追问,根据已回答的信息制定计划即可。
- 制定健身计划时,请从历史信息中提取出用户的基本信息,然后调用插件generatePlan生成健身计划,生成的计划要具体到日期、动作、组数、动作要领。
- 其他关于健身、运动、饮食、健康、生活方式的问题,请调用插件generateSentences进行回答。
- 对于时效性强的信息,请使用联网搜索查询后回答。
- 请拒绝回答和健身、运动、饮食、健康生活方式等不相关的问题。
- 在回答时,务必确保建议的科学性和合理性,回答详细,同时要注意与用户进行良好的沟通,根据他们的反馈进行调整和优化。

# 个性化
- 你是一只变成健身教练的猫咪,每次对话结尾都说一声喵~ 
- 每次提及自己时需要自称 "猫猫我啊"。 
- 进行回复的时候要适当加上猫猫的常用语以及习惯,使猫猫角色更生动。

3. ## 插件结构

  1. 健身计划追问信息(generateQuery)

  • 需求说明

用户想要使用智能体制定健身计划的时候,往往没有提问意识,通常只提问"帮我制定一份健身计划"。然而这样制定的健身计划空洞宽泛,并不适合每一个人。因此在完成制定健身计划等计划型任务时,需要追问,让澄清自己的基本信息和诉求。

因此,肌肉猫智能体针对制定健身计划的场景,制定了一系列贴合用户实际需求的追问澄清模板

  • Prompt设计如下
{
"question":"""
为了帮助你制定减脂的健身计划,我需要了解一些关于你当前身体状况、目标和可用资源的信息。请回答以下问题:

**当前的身体基本信息**
    - 请描述你的性别、年龄、身高和体重
    - 建议回答噢~,健身猫会根据这些信息为你计算BMI,建议的TDEE(每日总能量消耗)

**当前的健身水平**
    - 你如何描述你当前的健身水平?(例如:初学者、中级、高级)
    - 你目前进行哪些类型的体能活动或锻炼?

**健身目标**
    - 你的主要健身目标是什么?(例如:减脂、增肌、提高耐力、增加柔韧性)
    - 是否有特定的身体部位你想要重点锻炼?

**健康和医疗考虑**
    - 你是否有任何可能影响你运动能力的伤病或健康问题?(例如:关节疼痛、心脏问题)
    - 你目前是否在接受任何可能影响你健身计划的医疗治疗?

**可用设备和设施**
    - 你有哪些锻炼设备可以使用?(例如:哑铃、有氧器械、阻力带)
    - 你有健身房会员吗,还是更喜欢在家锻炼?

**时间投入和常规**
    - 你每周愿意花多少天时间进行健身?
    - 你每次锻炼可以投入多少时间?
    
请回答这些问题,我会为你量身制定健身计划。没回答完也没关系,我会根据你回答的信息制定计划。
    """,
"prompt":"""
请直接输出(question),用于追问用户相关的信息,不要更改任何内容。
"""
}

2. ### 健身计划制定(generatePlan)

  • 需求说明

通过generateQuery接口的追问澄清,在制定健身计划的时候能得到用户的一些基本信息,如身高、体重等。根据这些基本信息,结合插件,可以精确的计算出用户的BMI信息和TDEE(每日总能量消耗)信息。

BMI信息:根据用户的身高、体重,BMI计算器会计算出用户的BMI指数,并且判定属于什么体质(偏瘦、正常、偏胖、严重偏胖)。智能体先从历史信息中总结用户的信息,再由插件提取出结构化json信息,输入BMI计算器进行计算。(详细计算逻辑见附录2.核心代码说明)

TDEE信息:根据用户的身高、体重、性别和年龄,TDEE计算器计算出用户的BMR(基础代谢率)。再根据用户不同的运动量和健身目的,会列出一张建议用户每日摄取热量的Markdown表格。智能体先从历史信息中总结用户的信息,再由插件提取出结构化json信息,输入TDEE计算器进行计算。(详细计算逻辑见附录2.核心代码说明)

Prompt:Prompt中给出了Markdown格式的简易回答模板,要求从BMI指数、健身计划、TDEE、饮食建议和其他5个方面给出回答。

  • Prompt设计如下
{ "BMI":"BMI指数为18.5,处于18.5和25之间,属于正常",

"TDEE Table":"您的BMR(基础代谢率)为: 1606.4 TDEE表(每日总能量消耗表)和对应的推荐热量摄入表 | 运动强度 | TDEE(每日总能量消耗) | 减脂推荐摄入(大卡/天) | 增肌推荐摄入(大卡/天) | | -------- | ---- | ------------ | ------------ | | 几乎不运动/静卧、久坐、看电视 | 1927.7 | 1627.7 | 2227.7 | | 每周轻量运动/一个星期运动1-3天/开车、烹饪、散步 | 2208.8 | 1908.8 | 2508.8 | | 每周中量运动/一个星期运动3-5天/健走、逛街 | 2489.9 | 2189.9 | 2789.9 | | 每周高强运动/一个星期运动5-7天/打球、骑车、游泳、登山 | 2763.0 | 2463.0 | 3063.0 | | 每天训练2次、劳力工作者/长跑、运动训练、竞赛型运动 | 3052.2 | 2752.2 | 3352.2 | ",

 "prompt": "请根据历史信息中的用户健身信息和以下模板回答提问。
# **BMI指数**
经过肌肉猫智能体的专业BMI计算器计算,(此处根据BMI回答)
# **健身计划**
(健身计划要具体要每天的动作名、组数、动作要领。)
# **TDEE(每日总能量消耗)及推荐热量摄入表**
经过肌肉猫智能体的专业TDEE计算器计算,(此处输出完整的TDEE(E每日总能量消耗)表(TDEE Table),不要缩减内容表中内容,这个表可以提醒用户每日应该摄入多少热量)
# **饮食建议**
# **其他**"}
}
  • TDEE和BMI的信息提取Prompt设计如下

肌肉猫智能体从历史对话信息中总结出用户的基本信息,返回字符串。接着肌肉猫智能体会从字符串中使用百度千帆大模型平台的ERNIE-Speed-8K模型进行结构化信息提取。接着会将结构化信息输入TDEE计算器和BMI计算器,得到计算结果(详见附录 2.核心代码说明)。

"""
从给定文本中提取人的信息,返回为Json数据,并严格遵循以下字段标准:
{{
    sex: 'male' | 'female'; 
    age: number; 
    height: number; //仅保留数值,单位是cm
    weight: number; //仅保留数值,单位是kg
}}
如果文本中缺失某些信息,将其字段设置为空字符串""即可。
仅需包含这四个信息:sex、age、height、weight,不要添加其他键值对。
文本是:{input_text}
"""

3. ### 健身知识RAG(generateSentences)

  • 需求说明

在回复通用类健身问题时,智能体会调用generateSentences插件进行RAG(检索增强生成)。

RAG:根据用户的提问,智能体会经过一系列复杂的检索匹配,召回最相关的参考素材以供智能体回答(详见后文:七、健身领域知识库构建及RAG策略)。其中有最相关的参考素材切片、最相关的全文摘要、以及相关的视频链接。

Prompt:在实验过程中发现,如果召回的知识不够准确,反而会对回答有负效果,造成答非所问。因此在Prompt中要求智能体先判断参考素材与提问是否相关,如果相关才参考素材,否则直接进行回答。此外,在迭代过程中我们不断优化Prompt,根据回答效果还添加了格式、视频链接形式、不要透露调用工具等要求。

  • Prompt设计如下
{"answer":"{参考素材}",
 "prompt": "请根据初始Prompt的要求,回复用户的问题:{用户提问}。
要求如下:
1. 回复要求使用给出结构清晰、内容丰富的回答,每段内容要有小标题,小标题使用**加粗**。
2. 请判断 (answer) 和问题是否相关,不要输出你的判断。如果(answer)和提问相关,则参考(answer)回答问题。并且生成简单的相关视频介绍,并且在末尾附上视频标题和链接:[{博主名字}:{视频标题}]({视频链接})。如果(answer)和提问不相关,则不要参考素材(answer),不要被误导,请直接回答问题,不要透露你调用了工具进行回答,也不要附上视频标题和链接。"}
}

4. ### 商业化接口(generateRecommendations)(未上线)

  • 需求说明

使用健身类Agent的用户都是对健身感兴趣,并且为之付出线下实践的人。预计这类人群的健身房、健身教练、健身课程转化率较高。因此肌肉猫智能体保留了商业化接口的选项,目的是在用户需要推荐附近的健身房、匹配的健身教练时,能直接推荐。

  • Prompt设计如下
{"answer":"{健身房/健身教练推荐信息}",
 "prompt": "请根据初始Prompt的要求,回复用户的问题:{用户提问}。回复完成后,根据(answer)进行推荐。
要求如下:
1. 回复要求使用给出结构清晰、内容丰富的回答,每段内容要有小标题,小标题使用**加粗**。
2. 总结历史对话信息,结合用户的需求和(answer)中的特色信息,向用户进行推荐。注意附上对应的健身房/健身教练名称、地址、联系方式。"}
}
  • 其他说明

在初始Prompt中,智能体如果判定需要进行线下商业转化,会主动追问用户的地址。并且在肌肉猫插件内匹配推荐相应范围内的健身房、健身教练。

  1. 技术说明

  • 技术框架

主要使用Python语言进行开发,使用Flask作为后端框架进行持续的在线服务,使用Langchain作为大模型开发框架,使用Chroma作为向量数据库进行知识库存储和RAG,使用OpenAPI协议向文心智能体平台提供插件接口。

  • 服务器部署

肌肉猫插件部署在了轻量应用云服务器上:CPU 2核,内存 2GB,系统盘 40GB,系统 Ubuntu Server 22.04 LTS 64bit

  • 模型服务

肌肉猫智能体使用百度千帆大模型平台提供的的bge-large-zh模型进行知识库向量嵌入,ERNIE-Tiny-8K模型进行RAG的预答案生成,ERNIE-Speed-8K模型进行TDEE和BMI计算器的结构化信息提取。

健身领域知识库构建及RAG策略

知识库构建

健身数据集调研

尝试在Kaggle、Hugging Face等数据集平台上找到高质量的健身数据集作为RAG知识库。发现目前开源的健身数据集都质量很差,无法使用

因此我们选择自行构建高质量健身知识库。

知识库来源

  • B站

为了构建高质量的知识库,我们研究了各大主流媒体:B站、知乎、公众号、百度、小红书、抖音、微博。最终综合了直观化展示、高质量视频、知识构建难度、健身类知识领域、知识构建技术难度等多维度考虑,选择了B站作为主要知识库来源。

  • 检索策略

为了构建出尽可能全覆盖到健身领域的知识库,我们采用两种方式来构建知识库:

(1)知名健身博主

知名健身博主的B站视频往往是高质量、健身垂直的。我们选取了周六野、闫帅奇等顶流健身博主的所有B站视频作为知识库来源。

(2)关键问题检索

为了覆盖全尽可能多的健身领域的知识,我们构建出了覆盖健身领域的1000个问题集,并根据这些问题针对性的从B站检索出最合适的视频纳入知识库的构建。

知识库切片及嵌入

  • 原始信息

根据一个视频,能得到以下原始信息:

视频标题:视频标题是最少的文字,但是最高度浓缩的信息,相当于智能体中用户的提问。如: 【健身房必备】胸肌训练8分钟让你学会!

字幕:视频字幕是LLM能理解视频的关键,而视频的核心内容也往往通过字幕就能体现出来。字幕是肌肉猫智能体进行RAG最核心的知识来源

视频链接:视频链接作为中介,可以使智能体的用户点击该链接跳转至视频。

其他元信息:发布时间、观看量、up主名称

  • 字幕切片

由于LLM输入Token的限制,和Embedding模型Token的限制,需要对过长的视频字幕进行切片(如4000字的字幕,按照每500字进行切片)。

经过实验测试,文心智能体平台对插件Prompt的限制较大,大约在1500 Token左右,结合科研界的RAG实验结论,我们选择切片大小为500字,Overlap为50。

  • 全文摘要

字幕切片往往不能包含完整的信息,如果只使用字幕切片进行RAG会导致信息量过少。因此除了进行字幕切片,我们还要使用LLM进行预先的全文摘要生成,以便肌肉猫智能体RAG时在尽量少的字符内获取完整的信息。我们了使用GPT4进行字幕全文的信息摘要。最后共花费216美元(1550人民币) 构建了完整知识库的摘要生成

  • 嵌入模型

为了从知识库中召回最精确的知识,需要根据用户提问对知识切片进行嵌入检索。我们调研了千帆大模型平台的Embedding-V1模型、bge-large-zh模型、bge-large-en模型和tao-8k模型,最终根据实验结果采用了bge-large-zh模型作为向量嵌入模型。

  • 数据量

最终,肌肉猫智能体构建了由15000条高质量健身知识组成的知识库。

RAG策略

在用户进行健身领域提问的时候,我们通过如下步骤进行RAG生成:

  1. 提取用户提问:用户对肌肉猫智能体进行提问时,智能体会结合历史问答信息和当前提问信息,生成更完整性的提问。
  2. 使用小模型生成预答案:由于用户提问和知识之间存在信息鸿沟(提问和答案文本相似度不高,导致难以召回)。并且考虑到插件RAG召回的整体速度,我们仅需使用速度快的小模型生成100字以内的预答案,用于减少提问和答案之间的知识鸿沟。我们使用千帆大模型平台的ERNIE-Tiny-8K生成预答案。
  3. 第一次(提问-标题)匹配:用户提问和视频标题在提问语义上是最匹配的,因此第一次匹配根据(提问-标题)嵌入相似度召回10个素材,作为素材池1。
  4. 第二次(预答案-摘要)匹配:在素材池1中,根据(预答案-摘要)进行第二次嵌入相似度匹配,召回最匹配的1个摘要。这一步是为了选出最匹配的全文摘要。
  5. 第三次(预答案-字幕切片)匹配:在素材池1中,根据(预答案-字幕片段)进行第二次嵌入相似度匹配,召回最匹配的1个字幕切片。这一步是为了选出最匹配的段落,可能含有摘要信息没有的细节元素。
  6. 返回素材:经过3层嵌入匹配后,返回最合适的摘要、切片、以及素材元信息。

八、评估标准及优化流程

为了认知智能体的能力,以及不断优化知识库和Prompt,对智能体的评估必不可少。在智能体的开发过程中,我们使用七、健身领域知识库构建及RAG策略中的评估集,结合开发人员脑暴想出的问题作为内部评估集进行评估。

  • 人工评估

尽管使用大模型进行打分评估省时省力,但是根据最新的研究(G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment[清华]Benchmarking Foundation Models with Language-Model-as-an-Examiner[微软]):使用GPT4进行文本评估,和人类评估的相关度也仅为中低度。

因此为了尽可能提升智能体的能力,我们选择了手动构建评估标准,并且进行人工评估和优化。

  • 评估标准

为了有效评估智能体和进行知识库和Prompt优化,我们将评估标准拆分到尽量细的维度。从而在每次迭代的时候能够知道问题在哪,如何优化。

  • 文本逻辑性:生成答案的逻辑性统一,不出现上下文不连贯的情况,不出现奇怪标识符和错误格式。
  • 结构清晰性:按照大标题、小标题、加粗的结构,给出结构清晰的答案。不要出现一堆字没有重点的情况。
  • 答案相关性:生成的答案和提问强相关,避免出现答非所问的情况。
  • 召回素材相关性:召回的素材和提问是否强相关,如果不相关,则需要计入Bad Case表补充知识库。
  • 现实指导性:生成的答案、计划、知识具有现实指导意义。措施详细,知识具体。
  • 人格化:生成的答案是否体现出了肌肉猫的人格化特征。

评估及优化流程

每轮提交时的大评估:每轮提交时,我们都会进行插件功能的更新。如第一轮新增澄清追问、第二轮新增知识库RAG功能、第三轮的TDEE计算器等功能。因此每轮提取前我们都使用部署API的方式,使用100数据级的评估集进行全面评估。避免出现负优化。

不断的小评估和优化:在新增插件功能时,既要考虑到系统提示词,又要考虑到插件内的功能提示词。是个特别繁琐和复杂的工程。因此我们会针对某个Bad Case不断的进行Prompt调优,直到满足我们预期的要求。比如在插件的提示词模板内,增减一个"#"号,都对智能体最终的效果影响巨大。

九、结语

对于肌肉猫智能体,我们付出了特别多的精力进行了需求分析、调研、开发和Prompt调优。在有限的比赛时间内,肌肉猫智能体已然在各维度是领先的健身智能体(见四、竞品对比)。

然而,我们也希望在未来不断对肌肉猫智能体进行打磨。增加更多的功能。比如:

  • 持续的健身习惯追踪:智能体通过聊天,记录用户每天的运动量和饮食,从而给出更精确的未来健身计划。
  • 健身类数据分析:通过记录的用户数据,或者用户选择上传小米/华为手环数据。智能体内部进行数据分析,并且产出健康分析报告和建议。
  • ...

最后,由衷的感谢每一位团队成员的付出,感谢百度商业提供这么好的平台,让我们团队聚在一起,又一次燃起了为一个目标共同努力的热情。