01 什么是思维链?
思维链(Chain of Thought,CoT),让AI像学霸做数学题那样,不让它直接报答案,而是把"解题过程"一步步写出来,使得错误率直降。
我们在工作、学习经常用到的思维导图,以及通过详细的分析步骤,逐步推理问题的过程,也可以理解为“思维链”。
这种步骤分解的方式用在提示学习中,就被称为思维链提示,好像A有了人的意识一样,AI不再做“填空题”,而是做分析题,把将大语言模型的推理过程分步骤详细说清楚,直观的展示出来,引导模型生成更准确、更有逻辑性的答案。
02 为什么需要思维链?
大模型虽然知识丰富,但面对复杂问题(比如数学题、逻隹理时,直接输出答案容易出错。思维链通过让模型“显式思考”,能更准确地解决需要多步推理的问题。
类比人类:
如果你直接问一个人“28x37等于多少?”,他可能脱口而出一个错误答案;但如果他写下计算过程,正确率会更高。
03 大白话解释技术原理
1)AI的脑回路缺陷
大模型本质是「超级押题王」,直接给答案时会自动匹配最像正确答案的文本(当然很有可能就是大模型它自己瞎蒙的!)
2)分步破解法
当要求展示步骤时,AI被迫启动「慢思考模式」:
像人类先列公式再计算
自动调用训练时记住的数学定理/逻辑框架
每个中间结果都会成为下一步的线索
3)注意力控制术
AI内部有数百个「知识开关」(注意力头),分步指令能精准打开:
数学模块开关
因果推理开关
时序逻辑开关
(就像开导航时必须同时打开GPS+路况分析)
4)错误排查机制
当AI写出"5-2=3"时,这个中间结果会自动矫正后续的"3+4=7"(相当于自己给自己改作业)
04 思维链的过程是怎样的?
以模型回答一个数学问题为例:
1)输入问题:
“小明有15元,买了一个3元的本子,又买了单价2元的铅笔5支,还剩多少钱?”
2)分解步骤(模型内部):
第一步: 计算买铅笔的总花费→2元x5支=10元。
第二步: 计算总花费→3元(本子)+10元(铅笔)=13元。
第三步: 计算剩余金额→15元-13元=2元。
3)生成答案:
“答案是2元。”
05 思维链的两种形式
显式思维链: 模型输出答案时,直接展示推理步骤(用户可见)
示例:
“首先,铅笔的总价格是2元x5=10元。然后,总花费是3+10=13元。最后,剩余15-13=2元。所以答案是2元。”
隐式思维链: 模型在内部处理时分解问题,但最终只输出答案(用户不可见步骤)
06 思维链的局限性
依赖模型能力: 如果模型本身逻辑能力不足,步骤再多也可能出错。
步骤冗余: 有时模型会生成无关或错误的中间步骤(比如错误计算)。
效率问题: 分步推理需要更多计算资源,响应时间可能更长。