获得徽章 0
AI算法工程师 @唐山市环境科学研究院
#大模型日报# 那些公众号里一堆什么超长上下文模型当作能终结RAG的,每次大模型一出来一看上下文长度就在那喊终结RAG的,你脑子里想啥呢?把RAG简单粗暴地理解成“小抄”、当成一套自动拼接提示词的玩法,完全是一种误导和误读!它是指说方便你理解,但是你别真把他当小抄啊!现实是,传统上下文每次都把知识全塞进去,不仅计算成本爆炸,因为自注意力机制要对所有token两两计算关系,开销是平方级的,多头注意力更是把成本往上推几倍。因此超长文本带来的、“注意力稀释”问题,关键内容淹没在冗余信息里,模型表现反而跌得惨烈。RAG的核心是把知识库提前向量化、永久存储,通过高效检索精准调取信息,解决了上下文限制、计算瓶颈,还能做过滤和溯源。所以那种不负责任的观点和文章少点吧[谢谢]
展开
评论
主观能动性的真正起点:不是说你能做什么,而是能够选择“不做什么”[呲牙]

人类的主观能动性,核心在于不仅能“做什么”,更重要的是能“选择不做什么”。我们能够拒绝诱惑,放弃即时奖励,甚至逆着环境或目标前进。原因在于:我们拥有动机的源头,不被简单的外部奖励束缚;我们拥有对目的的选择权,可自主决定行为的意义与方向。

相比之下,AI没有“为何而动”的动机,只有“如何最优”的策略*。它没有真正的自由意志,更没有主动拒绝奖励或目标的能力。它行为的轨迹早已被目标函数限定。有人会抬杠:“我可以设计策略函数,把人类的叛逆、奉献、善良、神经质等行为都编码进去,让AI也有‘主观能动’。”问题是设计一个能涵盖**极度自相矛盾、多维冲突**行为的全局最优策略本身就极其复杂且未解,你看吧,当今具身智能的巅峰——自动驾驶都还在为多目标、冲突权衡痛苦挣扎,试想一套完美解决人类复杂心理的策略函数几乎不可能;这是根本的数学与计算复杂性限制,不是简单的工程问题。

所以AI的“主观能动性”只能是“模拟”而非“实质”,因为它始终在目标函数约束下行动,无自由拒绝或超越这个函数的能力。真正的能动性,源于能否“拒绝奖励、拒绝目标”,而这是现阶段AI永远不可能具备的[嘘]
展开
6
让大语言模型(LLM)调用外部能力主要有两大思路。

其一,视觉派🤪

核心是模仿人类,通过识别屏幕上的文本、图标等UI元素来理解界面,然后输出指令操作鼠标键盘。这种方式通用性强,能兼容各类软件,但缺点在于速度慢,交互模式限制了AI效率,且需要逐步执行,很大程度上依赖模型对具体界面元素背后功能的理解。

其二,API(软件)派🤖

跳过视觉交互,让AI直接理解软件或工具的API函数,通过生成参数直接调用功能(如Function Call、Tool Use),后来出现了MCP(模型上下文协议)这样的统一标准以提高互操作性。此方法效率高。

像`browser-user`、Manus这类浏览器AI操作工具,是两者的融合(融合),基于API派思路,通过直接与浏览器的DOM(文档对象模型)或可访问性API进行程序化交互,将点击、输入等视为函数调用,识别和操作网页元素,效率较高。融合了视觉派的能力则可借助多模态模型来理解页面整体布局、处理视觉复杂或非标准的界面元素(如图表、Canvas),或在纯程序化方法遇到困难时进行视觉定位和确认,以此增强理解力。

🙀但无论哪种流派或融合方式,一个必须高度警惕的问题是:MCP或类似统一接口赋能下的Agent时代,LLM固有的幻觉问题将被显著放大。因为过去,模型幻觉主要导致输出错误的文本信息,错了,就错了呗,一般也没啥大事;而现在,当模型被赋予直接调用工具、操控软件乃至物理世界的实际操作能力后,一旦产生幻觉并错误地选择或执行了某个功能,其后果将不再是信息层面的谬误,而是可能直接在现实世界中“做错事”,引发远超以往的实际风险和损失。
展开
评论
下一页
个人成就
文章被点赞 80
文章被阅读 16,498
掘力值 837
收藏集
3
关注标签
3
加入于