获得徽章 0
#人工智能创作者签约季#
AI发展的两条主要路线:一条路线是以语言为元模态,这是当前大型语言模型所采取的主要路径。在这条路线上,所有的信息和知识,无论是图像、声音还是其他形式的数据,最终都被转化为某种形式的符号表示并映射到统一的语义空间,由语言模型进行处理和理解。也就是说,目前的多模态模型虽然能处理图像、声音等,但本质上仍是将一切转化为抽象的token,并在统一的语义空间中操作。

另一条路线则是具身智能路线,强调直接的,直接的,直接的物理世界感知和交互。在这条路线上,AI不仅仅是处理抽象的符号,而是通过各种传感器直接感知世界,并通过物理行动与世界互动。这种方法更接近于生物智能的发展方式,允许AI形成更丰富、更直接的世界模型。具身智能的传感器(如触觉、压力、温度、平衡感等)提供了完全不同的信息类型。

虽然语言模型的成功使我们看到了纯符号处理的潜力,但要迈向真正的AGI,物理世界的直接体验和互动是不可或缺的组成部分。因为基于网络数据训练的大模型已触及认知边界,单纯增加参数量和数据量再也难以带来质的突破,参考Gork3的成本与收益。而且,具身智能不仅是为了获取更多数据,而是为了获取本质上不同的数据,并在根本上改变AI学习和理解世界的方式。所以未来最强大的AI系统可能是将两者优势结合的混合系统:既具备语言模型的抽象推理能力,又拥有具身智能的物理交互能力。

自动驾驶作为具身智能的先行场景,其"感知-决策-规划-控制"架构与Tesla的技术复用经验,已为具身智能提供了重要参考。具身智能的物理载体呈现多样性,从固定底座到人形机器人,没有单一最佳形态,而应基于场景需求选择,只是说人形机器人的形象更加符合大众固定思维,而且它的泛用性在多场景应用中也的确具有独特优势。不过因为当前的数据驱动模型仍难以真正理解因果关系,多模态融合能力有限,所以具身智能难以在开放环境中可靠运行。而世界模型的出现为解决这些挑战带来希望:如NVIDIA Cosmos等世界基础模型提供了符合物理规律的仿真环境,不仅降低了数据采集成本,还为具身智能提供了"演武场",使其能在闭环环境中快速学习。这种技术进步将加速具身智能的发展浪潮,推动AI向真正的通用人工智能迈进。
展开
moonless于2025-03-24 16:53发布的图片
评论
#挑战每日一条沸点# 今天分享一个观点,很有感触。

Harrison:我认为 LangChain 的工具和 MCP 的工具之间的区别在于,MCP 不是为 agent 的开发者准备的。当你要为一个你无法开发的 agent 引入工具时,MCP 才是最有用的。明确地说:如果我要编写一个执行某项任务的 agent ,我绝对不会使用 MCP。但我不认为这是 MCP 的目标应用场景。MCP 是为你无法控制的 agent 引入工具的。它还能让非开发者为 agent 引入工具(而 LangChain 的工具主要是面向开发者的)。非开发者的数量可比开发者多得多。
展开
评论
下一页
个人成就
文章被点赞 82
文章被阅读 20,342
掘力值 855
收藏集
3
关注标签
3
加入于