获得徽章 0
- #大模型日报# 那些公众号里一堆什么超长上下文模型当作能终结RAG的,每次大模型一出来一看上下文长度就在那喊终结RAG的,你脑子里想啥呢?把RAG简单粗暴地理解成“小抄”、当成一套自动拼接提示词的玩法,完全是一种误导和误读!它是指说方便你理解,但是你别真把他当小抄啊!现实是,传统上下文每次都把知识全塞进去,不仅计算成本爆炸,因为自注意力机制要对所有token两两计算关系,开销是平方级的,多头注意力更是把成本往上推几倍。因此超长文本带来的、“注意力稀释”问题,关键内容淹没在冗余信息里,模型表现反而跌得惨烈。RAG的核心是把知识库提前向量化、永久存储,通过高效检索精准调取信息,解决了上下文限制、计算瓶颈,还能做过滤和溯源。所以那种不负责任的观点和文章少点吧
展开评论1 - 主观能动性的真正起点:不是说你能做什么,而是能够选择“不做什么”
![[呲牙]](//lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_2.cd1e2bd.png)
人类的主观能动性,核心在于不仅能“做什么”,更重要的是能“选择不做什么”。我们能够拒绝诱惑,放弃即时奖励,甚至逆着环境或目标前进。原因在于:我们拥有动机的源头,不被简单的外部奖励束缚;我们拥有对目的的选择权,可自主决定行为的意义与方向。
相比之下,AI没有“为何而动”的动机,只有“如何最优”的策略*。它没有真正的自由意志,更没有主动拒绝奖励或目标的能力。它行为的轨迹早已被目标函数限定。有人会抬杠:“我可以设计策略函数,把人类的叛逆、奉献、善良、神经质等行为都编码进去,让AI也有‘主观能动’。”问题是设计一个能涵盖**极度自相矛盾、多维冲突**行为的全局最优策略本身就极其复杂且未解,你看吧,当今具身智能的巅峰——自动驾驶都还在为多目标、冲突权衡痛苦挣扎,试想一套完美解决人类复杂心理的策略函数几乎不可能;这是根本的数学与计算复杂性限制,不是简单的工程问题。
所以AI的“主观能动性”只能是“模拟”而非“实质”,因为它始终在目标函数约束下行动,无自由拒绝或超越这个函数的能力。真正的能动性,源于能否“拒绝奖励、拒绝目标”,而这是现阶段AI永远不可能具备的
。 展开61 - 让大语言模型(LLM)调用外部能力主要有两大思路。
其一,视觉派:
核心是模仿人类,通过识别屏幕上的文本、图标等UI元素来理解界面,然后输出指令操作鼠标键盘。这种方式通用性强,能兼容各类软件,但缺点在于速度慢,交互模式限制了AI效率,且需要逐步执行,很大程度上依赖模型对具体界面元素背后功能的理解。
其二,API(软件)派:
跳过视觉交互,让AI直接理解软件或工具的API函数,通过生成参数直接调用功能(如Function Call、Tool Use),后来出现了MCP(模型上下文协议)这样的统一标准以提高互操作性。此方法效率高。
像`browser-user`、Manus这类浏览器AI操作工具,是两者的融合(融合),基于API派思路,通过直接与浏览器的DOM(文档对象模型)或可访问性API进行程序化交互,将点击、输入等视为函数调用,识别和操作网页元素,效率较高。融合了视觉派的能力则可借助多模态模型来理解页面整体布局、处理视觉复杂或非标准的界面元素(如图表、Canvas),或在纯程序化方法遇到困难时进行视觉定位和确认,以此增强理解力。但无论哪种流派或融合方式,一个必须高度警惕的问题是:MCP或类似统一接口赋能下的Agent时代,LLM固有的幻觉问题将被显著放大。因为过去,模型幻觉主要导致输出错误的文本信息,错了,就错了呗,一般也没啥大事;而现在,当模型被赋予直接调用工具、操控软件乃至物理世界的实际操作能力后,一旦产生幻觉并错误地选择或执行了某个功能,其后果将不再是信息层面的谬误,而是可能直接在现实世界中“做错事”,引发远超以往的实际风险和损失。
展开评论3 - #人工智能创作者签约季#
AI发展的两条主要路线:一条路线是以语言为元模态,这是当前大型语言模型所采取的主要路径。在这条路线上,所有的信息和知识,无论是图像、声音还是其他形式的数据,最终都被转化为某种形式的符号表示并映射到统一的语义空间,由语言模型进行处理和理解。也就是说,目前的多模态模型虽然能处理图像、声音等,但本质上仍是将一切转化为抽象的token,并在统一的语义空间中操作。
另一条路线则是具身智能路线,强调直接的,直接的,直接的物理世界感知和交互。在这条路线上,AI不仅仅是处理抽象的符号,而是通过各种传感器直接感知世界,并通过物理行动与世界互动。这种方法更接近于生物智能的发展方式,允许AI形成更丰富、更直接的世界模型。具身智能的传感器(如触觉、压力、温度、平衡感等)提供了完全不同的信息类型。
虽然语言模型的成功使我们看到了纯符号处理的潜力,但要迈向真正的AGI,物理世界的直接体验和互动是不可或缺的组成部分。因为基于网络数据训练的大模型已触及认知边界,单纯增加参数量和数据量再也难以带来质的突破,参考Gork3的成本与收益。而且,具身智能不仅是为了获取更多数据,而是为了获取本质上不同的数据,并在根本上改变AI学习和理解世界的方式。所以未来最强大的AI系统可能是将两者优势结合的混合系统:既具备语言模型的抽象推理能力,又拥有具身智能的物理交互能力。
自动驾驶作为具身智能的先行场景,其"感知-决策-规划-控制"架构与Tesla的技术复用经验,已为具身智能提供了重要参考。具身智能的物理载体呈现多样性,从固定底座到人形机器人,没有单一最佳形态,而应基于场景需求选择,只是说人形机器人的形象更加符合大众固定思维,而且它的泛用性在多场景应用中也的确具有独特优势。不过因为当前的数据驱动模型仍难以真正理解因果关系,多模态融合能力有限,所以具身智能难以在开放环境中可靠运行。而世界模型的出现为解决这些挑战带来希望:如NVIDIA Cosmos等世界基础模型提供了符合物理规律的仿真环境,不仅降低了数据采集成本,还为具身智能提供了"演武场",使其能在闭环环境中快速学习。这种技术进步将加速具身智能的发展浪潮,推动AI向真正的通用人工智能迈进。展开评论2
![[谢谢]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_112.2dd347d.png)
![[呲牙]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_2.cd1e2bd.png)
。