前言
一些自己了解实践 AI 的总结,主要从Cline、AI大佬博客学习。
一、常见概念
LLM:大语言模型,就是各种AI模型的统称
量化模型:给模型“瘦身”,使模型可以在更普通的硬件上运行。它能加快模型运行速度,减少内存消耗,但降低准确度。
prompt:提示词,就是你对模型说的话,可以是文本、图片、各种文件
token:是模型处理文本的基本单位,也是计量单位,token可以是一个词、一个数字或一个标点符号等,一般中文字符消耗token是英文字符的两倍。 模型推理:让模型先自己思考,以完善输入,让回答更精准,可以避免很多直觉性的错误
RAG:Retrieval-Augmented Generation是一种结合信息检索(Retrieval)和生成式 AI(Generation)的技术,先从外部知识库检索相关信息,再利用大模型生成更准确、上下文丰富的回答,常用于问答系统和知识管理。
MCP:全称Model Context Protocol模型上下文协议,由 Anthropic(训练 Claude 的公司) 推出的开放标准协议,它提供了一种连接人工智能系统和不同数据源的方法,白话讲就是让ai能连接到各种不同的软件或系统,直接进行操作。
AGI:Artificial General Intelligence通用人工智能,是人工智能领域的核心目标之一,指能够像人类一样具备广泛智能能力的系统,能理解、学习并完成几乎所有人类可从事的智力任务。
Skill(技能):是一种模块化的AI能力扩展方式,可以给AI添加特定领域的专业知识和最佳实践,从而让AI在特定任务中表现的更加专业高效。本质就是写好的一段prompt ,可以渐进式加载,从而节省token。
二、聊天技巧
1. 基本流程
1.在研究时从开放性问题开始:有哪些方式来实现它?各种方式的优缺点?
2.完成初步研究后,就告诉模型具体该怎么做,我充当设计者,模型是实现者
3.模型实现完成后,必须测试代码是否真的有效
2. 以计划模式启动,再切换到行动模式(Cline)
计划模式:收集背景,读取相关文件,分解需求并制定计划
行动模式:根据计划的上下文简化实施,按照既定计划执行
技巧:
- 在计划模式探索边缘情况、遇到意外的复杂性时切换回计划模式
- 计划不是一次性的事情,复杂的项目通常需要多个计划,让AI编写此次计划的markdown文件,作为将来可以参考的上下文
虽然计划让人感觉很慢,感觉什么都没做。但事实是:
- 产出的质量会增加数倍!
- 从长远来看可以节省时间,因为会生成更易于维护的代码,尽早发现边缘情况
3. 通过本地文件“持久记忆”来解决上下文溢出的问题
上下文积累会导致:
- AI效果变差
- token用量暴涨,费用激增
- 历史错误内容污染后续对话
解决方法:
- 准备两个文档(直接让 AI 生成):
- 任务文档:记录需求和整体规划
- 进度文档:追踪已完成的内容
- 工作流程:
- 每轮对话都携带这两个文档
- 当 token 接近上限时,让 AI 更新进度文档
- 启动新对话,带着最新文档继续
- 循环以上步骤直到完成整个开发
- 完成后删除这两个临时文档
4. 面对复杂任务,一步一步来
面对复杂任务,需要一步一步来(think step by step)
就像平常开发一样,先开发结构、声明数据,再计算二次数据,最后实现视图的逻辑等等
这样的优势:
- AI 在每一步都有充分的"思考空间"
- 中间结果可验证,便于调试
- 即使某一步出错,也不影响整体架构
- 符合人类理解代码的自然顺序
5. XML结构相比JSON对LLM更友好
类似“XML”结构的一个示例:
<write_to_file>
<path>File path here</path>
<content>
Your file content here
</content>
</write_to_file>
等效的 JSON 将是:
{
"tool": "write_to_file",
"fields": [
{ "name": "path", "value": "File Path Here" }
{ "name": "content", "value": "File Content Here" }
]
}
XML 标签是用尖括号括起来的标签,包含开始和结束标签,例如<tag>和</tag>。
XML更简洁,因为XML是基于结构的,而不是基于参数。LLM也更容易理解XML是什么。并且LLM 已经接受过大量 XML 网络内容的培训。
另外,JSON的语法规则,要求模型在生成内容时,需要额外处理转义逻辑;而XML则不用,模型可以直接输出原始字符,无需考虑转义,减少了处理转义字符的麻烦和出错概率。
6. CO-STAR 框架
CO-STAR框架是一个用于构建提示的便捷模板。指导您以结构化的方式向 LLM 提供有关您的任务的所有关键信息,确保根据您的具体需求提供定制和优化的响应。
(C)Context背景:提供任务的背景信息 这有助于 LLM 了解正在讨论的具体场景,确保其回应是相关的。
(O)Objective目标:明确你希望 LLM 执行的任务是什么 明确你的目标有助于 LLM 集中精力实现该特定目标。
(S)Style风格:指定您希望 LLM 使用的写作风格 这可以是某个名人的写作风格,也可以是某个行业的专家,例如商业分析师或首席执行官。这将指导LLM以符合您需求的方式和措辞进行回复。
(T)Tone语气:设定回应的态度 这确保法学硕士的回答能够与预期的情绪或情感语境产生共鸣。例如,正式、幽默、富有同理心等等。
(A)Audience受众:确定回应的对象 根据受众(例如某个领域的专家、初学者、儿童等)定制 LLM 的回应,确保其在您所需的背景下是适当且易于理解的。
(R)Response回复:提供回复格式 这可确保 LLM 输出的格式与您下游任务所需的格式完全一致。示例包括列表、JSON、专业报告等等。对于大多数以编程方式处理 LLM 响应的应用程序而言,JSON 输出格式是理想的选择。
7. 关于提示词
写提示词的要点是:
- 只提供必要的上下文。不要让AI自己搜索,指定具体的文件路径。
- 尽量全面精准的描述你的需求和业务逻辑。减少 AI 的发散。
不要太迷信各种提示词模版,精准的描述需求才是重点!
如果文章对你有帮助,点个赞支持一下吧。