#人工智能创作者签约季#
AI发展的两条主要路线:一条路线是以语言为元模态,这是当前大型语言模型所采取的主要路径。在这条路线上,所有的信息和知识,无论是图像、声音还是其他形式的数据,最终都被转化为某种形式的符号表示并映射到统一的语义空间,由语言模型进行处理和理解。也就是说,目前的多模态模型虽然能处理图像、声音等,但本质上仍是将一切转化为抽象的token,并在统一的语义空间中操作。
另一条路线则是具身智能路线,强调直接的,直接的,直接的物理世界感知和交互。在这条路线上,AI不仅仅是处理抽象的符号,而是通过各种传感器直接感知世界,并通过物理行动与世界互动。这种方法更接近于生物智能的发展方式,允许AI形成更丰富、更直接的世界模型。具身智能的传感器(如触觉、压力、温度、平衡感等)提供了完全不同的信息类型。
虽然语言模型的成功使我们看到了纯符号处理的潜力,但要迈向真正的AGI,物理世界的直接体验和互动是不可或缺的组成部分。因为基于网络数据训练的大模型已触及认知边界,单纯增加参数量和数据量再也难以带来质的突破,参考Gork3的成本与收益。而且,具身智能不仅是为了获取更多数据,而是为了获取本质上不同的数据,并在根本上改变AI学习和理解世界的方式。所以未来最强大的AI系统可能是将两者优势结合的混合系统:既具备语言模型的抽象推理能力,又拥有具身智能的物理交互能力。
自动驾驶作为具身智能的先行场景,其"感知-决策-规划-控制"架构与Tesla的技术复用经验,已为具身智能提供了重要参考。具身智能的物理载体呈现多样性,从固定底座到人形机器人,没有单一最佳形态,而应基于场景需求选择,只是说人形机器人的形象更加符合大众固定思维,而且它的泛用性在多场景应用中也的确具有独特优势。不过因为当前的数据驱动模型仍难以真正理解因果关系,多模态融合能力有限,所以具身智能难以在开放环境中可靠运行。而世界模型的出现为解决这些挑战带来希望:如NVIDIA Cosmos等世界基础模型提供了符合物理规律的仿真环境,不仅降低了数据采集成本,还为具身智能提供了"演武场",使其能在闭环环境中快速学习。这种技术进步将加速具身智能的发展浪潮,推动AI向真正的通用人工智能迈进。
AI发展的两条主要路线:一条路线是以语言为元模态,这是当前大型语言模型所采取的主要路径。在这条路线上,所有的信息和知识,无论是图像、声音还是其他形式的数据,最终都被转化为某种形式的符号表示并映射到统一的语义空间,由语言模型进行处理和理解。也就是说,目前的多模态模型虽然能处理图像、声音等,但本质上仍是将一切转化为抽象的token,并在统一的语义空间中操作。
另一条路线则是具身智能路线,强调直接的,直接的,直接的物理世界感知和交互。在这条路线上,AI不仅仅是处理抽象的符号,而是通过各种传感器直接感知世界,并通过物理行动与世界互动。这种方法更接近于生物智能的发展方式,允许AI形成更丰富、更直接的世界模型。具身智能的传感器(如触觉、压力、温度、平衡感等)提供了完全不同的信息类型。
虽然语言模型的成功使我们看到了纯符号处理的潜力,但要迈向真正的AGI,物理世界的直接体验和互动是不可或缺的组成部分。因为基于网络数据训练的大模型已触及认知边界,单纯增加参数量和数据量再也难以带来质的突破,参考Gork3的成本与收益。而且,具身智能不仅是为了获取更多数据,而是为了获取本质上不同的数据,并在根本上改变AI学习和理解世界的方式。所以未来最强大的AI系统可能是将两者优势结合的混合系统:既具备语言模型的抽象推理能力,又拥有具身智能的物理交互能力。
自动驾驶作为具身智能的先行场景,其"感知-决策-规划-控制"架构与Tesla的技术复用经验,已为具身智能提供了重要参考。具身智能的物理载体呈现多样性,从固定底座到人形机器人,没有单一最佳形态,而应基于场景需求选择,只是说人形机器人的形象更加符合大众固定思维,而且它的泛用性在多场景应用中也的确具有独特优势。不过因为当前的数据驱动模型仍难以真正理解因果关系,多模态融合能力有限,所以具身智能难以在开放环境中可靠运行。而世界模型的出现为解决这些挑战带来希望:如NVIDIA Cosmos等世界基础模型提供了符合物理规律的仿真环境,不仅降低了数据采集成本,还为具身智能提供了"演武场",使其能在闭环环境中快速学习。这种技术进步将加速具身智能的发展浪潮,推动AI向真正的通用人工智能迈进。
展开
评论
2