我用 100 行代码,搭了个带大脑的 SLAM 智能体

35 阅读10分钟

具身智能入门必看,Python 极简实现,附完整可运行代码

前言

聊到具身智能、自主机器人,很多人第一反应是公式堆山、环境复杂、门槛超高,但其实核心逻辑远比想象中简单。

本文不搞虚的、不堆公式,只用 Python 实现一个可运行的 SLAM+AI Agent 最小 Demo,100 行代码让你搞懂:

  • SLAM 到底是机器人的什么器官?
  • AI Agent 如何做决策?
  • 两者结合后,机器人为什么能 “自己思考、自己走路”?

看完就能跑通代码,掌握自主机器人的核心闭环逻辑,这也是未来家用、巡检、配送机器人的底层架构,零基础也能轻松上手~

0 一句话讲透核心关系:SLAM 与 AI Agent 的分工

做机器人自主导航,核心就两件事:感知环境做决策,SLAM 和 AI Agent 的分工像极了人的身体器官:

  • SLAM = 眼睛 + 定位:回答「我在哪?周围长啥样?地图是什么?」
  • AI Agent = 大脑 + 决策:回答「我要去哪?怎么走?遇到障碍怎么办?」
  • SLAM + AI Agent = 自主机器人:眼睛看环境 → 大脑做决策 → 身体执行动作,形成完整的智能闭环。

本文就搭建这个闭环的最小可用版本,不用复杂环境,纯 Python 实现。

1 我们要做的极简 Demo:核心目标与功能

核心架构(3 大模块)

极简机器人系统只有 3 个核心模块,业界通用,面试 / 讲方案直接用:

  1. Map 模块:模拟 SLAM 建图(10×10 栅格地图)
  2. SLAM 模块:实时输出「机器人当前位置 + 环境地图」
  3. AI Agent 模块:读取地图 → 路径规划 → 下发移动指令

实现核心功能

  • 机器人在 10×10 网格中自主移动
  • SLAM 实时更新机器人位置,提供环境感知
  • AI Agent 自动规划路径,避开障碍(基础版)
  • 从起点 (0,0) 自主导航至目标点 (5,5)

2 整体架构:感知 - 决策 - 执行三层闭环

这是业界标准的极简架构,所有自主机器人的基础逻辑都源于此,数据流全程闭环:

架构图.png

三层核心分工

  1. 感知层(SLAM) :机器人的 “视觉系统”,只干一件事 —— 稳定输出「我在哪」+「环境什么样」
  2. 决策层(AI Agent) :机器人的 “大脑”,根据感知信息做路径规划,下发移动指令
  3. 执行层:机器人的 “四肢”,执行 AI Agent 的指令,移动后将位置反馈给 SLAM,完成闭环

3 第一步:极简模拟 SLAM(感知层实现)

真实 SLAM 涉及激光 / 视觉建图、帧匹配、回环检测,复杂但核心原理可极简模拟,我们只需要做 3 件事:

  • 维护一个 10×10 的栅格地图,代表机器人的活动环境
  • 维护机器人的实时坐标 (x, y)
  • 机器人移动后,更新坐标(模拟 SLAM 的定位功能)

SLAM 核心代码(Python)

# 极简 SLAM 核心逻辑 
class SimpleSLAM:
    def __init__(self): 
        self.x = 0 # 机器人初始x坐标 
        self.y = 0 # 机器人初始y坐标 
        self.map = self.build_grid_map() # 构建10×10栅格地图 
    
    def build_grid_map(self): # 模拟10×10栅格地图,0代表可通行,1代表障碍(基础版可全设为0) 
        return [[0 for _ in range(10)] for _ in range(10)] 
    def update_pose(self, dx, dy): # 模拟帧间匹配,更新机器人位姿(移动后坐标变化) 
        self.x += dx self.y += dy # 防止机器人超出地图边界 
        self.x = max(0, min(self.x, 9)) 
        self.y = max(0, min(self.y, 9)) 
    def get_state(self): # 向AI Agent输出:当前位置 + 环境地图 
        return self.x, self.y, self.map

核心要点:SLAM 的本质是状态输出器,无论多复杂的 SLAM 算法,最终都是为了稳定、准确地给决策层提供「位置 + 地图」信息。

4 第二步:搭建极简 AI Agent(决策层实现)

AI Agent 是机器人的 “灵魂”,一个能用的 Agent 至少需要 4 种能力:感知、规划、执行、反思,本文用最易理解的ReAct 思想实现(Reason→Act→Observe→Update)。

Agent 核心能力

  1. 感知:读取 SLAM 输出的「位置 + 地图」信息
  2. 规划:根据当前位置和目标位置,计算移动方向
  3. 执行:将移动方向转换为具体的坐标变化,下发指令
  4. 反思:判断是否到达目标点,到达则停止运动

AI Agent 核心代码(Python)

这里仅采用伪代码形式,文末配有完整代码,其中采用llm作为核心决策**。**

# 极简 AI Agent 核心逻辑(ReAct思想) 
class SimpleAgent: 
    def __init__(self, target_x, target_y): 
        self.target_x = target_x # 目标点x坐标 
        self.target_y = target_y # 目标点y坐标 

    def think(self, x, y, map): # 大脑核心思考逻辑:根据当前位置规划移动方向 
        if x < self.target_x: 
        return "RIGHT" # 目标在右侧,向右移动 
        elif x > self.target_x: return "LEFT" # 目标在左侧,向左移动
        elif y < self.target_y: return "UP" # 目标在上侧,向上移动 
        elif y > self.target_y: return "DOWN" # 目标在下侧,向下移动 
        else: return "ARRIVED" # 到达目标点 

    def act(self, action): # 将决策转换为具体的坐标变化(执行指令) 
        action_to_delta = { "RIGHT": (1, 0), "LEFT": (-1, 0), "UP": (0, 1), "DOWN": (0, -1), "ARRIVED": (0, 0) }
        return action_to_delta.get(action, (0, 0))

核心要点:AI Agent 的本质是状态决策器—— 输入「当前状态」,输出「执行动作」,复杂的 LLM Agent 只是在这个基础上增加了工具调用、长时序记忆等能力。

5 第三步:拼接 SLAM+Agent,实现自主导航闭环(最关键)

真实的自主机器人,上电后就会一直运行感知 - 决策 - 执行 - 反馈的主循环,我们的 Demo 也完全复刻这个逻辑,只需几行代码就能实现核心闭环。

主循环核心代码(Python)

# 初始化SLAM和AI Agent 
slam = SimpleSLAM() # 设置目标点为(5,5) 
agent = SimpleAgent(target_x=5, target_y=5) # 机器人主循环(上电即运行) 
while True: 
    # 1. 感知:SLAM输出当前状态(位置+地图) 
    x, y, grid_map = slam.get_state() 
    print(f"当前位置:({x}, {y})") 
    
    # 2. 决策:AI Agent根据状态规划动作 
    action = agent.think(x, y, grid_map) 
    
    # 3. 反思:到达目标点则退出循环 
    if action == "ARRIVED": 
        print("✅ 到达目标点(5,5)!自主导航完成") 
        break 
        
    # 4. 执行:Agent下发移动指令,转换为坐标变化 
    dx, dy = agent.act(action) 

    # 5. 反馈:机器人移动后,SLAM更新位姿,完成闭环 
    slam.update_pose(dx, dy)

6 Demo 运行效果:零基础也能跑通

无需配置任何复杂环境,只需安装 Python(3.8+),直接运行代码,就能看到清晰的自主导航过程:

  1. 机器人从初始位置 (0,0) 出发
  2. 控制台实时打印当前位置,每一步的移动方向由 AI Agent 自主决策
  3. SLAM 实时更新机器人坐标,防止超出地图边界
  4. 最终自主导航至目标点 (5,5),控制台输出完成提示

技术意义:这个看似简单的 Demo,是自主智能体的最小原型,也是具身智能的基础逻辑,未来所有商用机器人的核心架构都源于此。

7 从极简 Demo 到真实机器人:落地路径(重点)

学会这个 Demo,只是入门的第一步,从模拟到真实机器人,只需做三层升级,核心逻辑 1:1 复用,这也是工业界的真实落地路径:

🔧 SLAM 层升级:从模拟到真实感知

  • 栅格地图 → 激光 SLAM / 视觉 SLAM(如 Cartographer、ORB-SLAM3)
  • 模拟位姿 → 帧匹配、图优化、回环检测(解决定位漂移问题)
  • 无障碍 → 融合传感器(激光雷达、相机、IMU)检测真实障碍

🧠 Agent 层升级:从规则到智能决策

  • 规则规划 → LLM + 工具调用 + 长时序记忆(如通义千问、GPT 结合 ReAct)
  • 单点导航 → 复杂任务规划(如 “取快递 + 送水 + 返回充电” 多步骤任务)
  • 无交互 → 人机自然交互(语音指令、文字指令解析)

🤖 系统层升级:从单机到工程化

  • 单机 Python → ROS/ROS2(机器人操作系统,工业标准)
  • 假数据 → 真实传感器(激光雷达、相机)+ 电机 + 机器人底盘
  • 无可视化 → rviz/gazebo 仿真 + 实机调试

8 为什么 SLAM+AI Agent 是下一个技术风口?

当前机器人领域的两大痛点:

  • 传统 SLAM:只有感知能力,没有 “大脑”,只能做简单的路径跟随,无法自主决策
  • 纯 AI Agent:只有 “大脑”,没有物理身体和空间感知,困在屏幕里,无法落地到物理世界

SLAM+AI Agent 的结合,完美解决了这两个问题,打造出有感知、能决策、可执行的实体智能体,这也是未来 3 年的核心技术趋势:

  • 家用服务机器人:扫地、陪护、做饭,需要自主导航 + 任务决策
  • 工业巡检机器人:高炉、变电站巡检,需要环境感知 + 异常处理决策
  • 自主配送车:小区 / 园区配送,需要路径规划 + 避障决策
  • 自动驾驶:低速无人车的核心架构就是 SLAM+AI Agent

结论:SLAM+AI Agent 是具身智能落地的核心引擎,也是机器人工程师、AI 算法工程师的必备技能。

9 适合谁学?怎么学最快?(学习路线)

👨💻 适合人群

  • SLAM 算法工程师:想升级为自主机器人研发工程师
  • 机器人 / 自动驾驶开发者:想掌握核心闭环逻辑
  • AI Agent 落地工程师:想做物理世界的 Agent 落地
  • 学生 / 入门者:想进入具身智能、机器人领域,零基础起步

🚀 最快学习路线(从入门到实战)

  1. 跑通本文 Demo:理解感知 - 决策 - 执行的核心闭环,修改目标点、地图障碍,熟悉代码逻辑
  2. 升级为 ROS 版本:将 Python Demo 移植到 ROS/ROS2,实现仿真环境下的导航
  3. 接入真实 SLAM:替换模拟 SLAM,接入激光 / 视觉 SLAM 算法,实现真实环境感知
  4. 升级为 LLM Agent:将规则 Agent 替换为 LLM + 工具调用,实现复杂任务决策

按照这个路线走,你就能拥有真正的自主机器人研发能力,轻松对接工业界需求。

10 完整代码领取(可直接运行)

为了方便大家零基础复现,我整理了完整版可运行 Python 代码包, 包含: ✅ 完整 SLAM 模拟类(带边界限制、障碍模拟) ✅ 完整 AI Agent 类(ReAct 思想实现) ✅ 主循环逻辑(带实时打印、导航完成提示) ✅ 地图、路径可视化代码(直观看到导航过程) ✅ 详细运行说明(零基础也能一步跑通)

领取方式1:关注我的【掘金主页】, 私信回复关键词 【SlamAgent】 ,直接获取全套代码包~

领取方式2:关注我的wechat【SLAM与AI智能体】,享更多首发文章, 私信回复关键词 【SlamAgent】 ,直接获取全套代码包~

最后

具身智能、自主机器人不是遥不可及的高科技,核心逻辑其实很简单 ——把感知和决策拼起来,形成闭环

本文的 100 行代码 Demo,是未来无数商用机器人的最小技术原型,掌握这个核心逻辑,再逐步升级技术栈,就能轻松进入这个黄金赛道。

我会持续在掘金更新SLAM+AI Agent 实战内容

  • 激光 / 视觉 SLAM 实战教程
  • LLM Agent 工具调用落地
  • ROS/ROS2 机器人开发
  • 实机调试踩坑指南
  • 机器人领域面试 / 求职方向

关注我的掘金主页,一起从 “会用” 走到 “会造”,玩转具身智能和自主机器人~


作者:slam 之心专注:SLAM 算法、AI Agent、具身智能、自主机器人持续更新:实战教程 / 代码拆解 / 面试干货,欢迎关注交流~