1. 引言
最近在 GitHub 上发现了一个真正能“动手”的 AI 助手——NeuralAgent。它不像普通聊天机器人只会动嘴皮子,而是能直接操作你的电脑:点击鼠标、输入文字、填表单、发邮件,甚至后台自动处理网页任务。我花了周末时间部署测试,分享这份真实体验和安装指南。
2. 正文:NeuralAgent 核心解析
▍ 它到底能做什么?
- 真实环境操作:控制鼠标键盘、切换窗口、滚动页面(支持 Windows/macOS/Linux)
- 后台自动化:无需前台显示,后台浏览器自动处理表单提交、数据抓取(仅 Windows 暂支持后台)
- 复杂任务流:例如自动登录 Sales Navigator 抓取客户列表 → 写入 Google Sheets → 邮件通知(全程无需干预)
- 多模态决策:结合屏幕视觉识别+语言理解,精准定位按钮位置(如识别“点击蓝色登录按钮”)
▍ 技术架构亮点
- 模块化 Agent 协作:
- 规划器:拆解任务(如“整理本周邮件→导出 Excel”)
- 分类器:判断操作类型(点击/输入/等待)
- 建议器:实时纠错(如弹窗出现时自动处理)
- 多模型支持:可自由切换 OpenAI GPT-4、Claude 3、Gemini 甚至本地 Ollama 模型
- 开源栈清晰:
- 后端:FastAPI(任务调度)
- 前端:Electron(桌面控制)+ React(操作面板)
3. 手把手部署指南
▍ 基础环境(实测于 Ubuntu 22.04 / Windows 11)
# 必需依赖
Python≥3.10, Node.js≥18, Git
# 安装系统工具(Windows需额外装AutoHotKey)
sudo apt install libxcb-xinerama0 libgl1-mesa-dev # Linux
choco install autohotkey # Windows(管理员模式运行)[1,4](@ref)
▍ 四步安装
- 克隆仓库与依赖安装
git clone https://github.com/withneural/neuralagent
cd neuralagent/backend && pip install -r requirements.txt
cd ../frontend && npm install
- 配置 AI 模型密钥
在backend/.env中填写:
OPENAI_API_KEY=sk-xxx # 或ANTHROPIC_API_KEY等
ACTIVE_MODEL=claude-3-sonnet # 可选模型见[1](@ref)
- 启动服务
# 后端启动
cd backend && uvicorn main:app --reload --port 8000
# 前端启动
cd frontend && npm start
- 连接桌面(关键步骤)
- Linux/macOS:授权屏幕录制权限(系统设置→隐私)
- Windows:以管理员身份运行
desktop_connector.exe(防权限拦截)
4. 实测任务案例
任务:“自动登录 Gmail,将未读邮件标题写入表格”
- NeuralAgent 操作流:
- 打开 Chrome → 输入 gmail. Com → 输入账号密码(自动填充)
- 识别“未读邮件”标签 → 滚动抓取标题
- 新建 Google Sheets → 粘贴数据 → 保存
- 耗时:首次运行需 3 分钟(模型学习界面),后续相同任务≈40 秒
5. 同类工具对比
| 工具 | 优势 | 限制 |
|---|---|---|
| NeuralAgent | 真·桌面级操控、多模态融合 | 后台浏览器仅限 Windows |
| AutoGPT | 复杂任务规划 | 无真实环境操作能力 |
| OpenInterpreter | 代码执行 | 需手动确认每一步 |
6. 总结:适合谁尝试?
- 技术极客:想体验下一代 AI 执行力的开发者
- 重复任务处理者:如每日数据归档、跨平台搬运
- 研究党:学习多 Agent 协作架构(源码结构清晰)
⚠️ 当前局限:视觉识别精度依赖屏幕分辨率(4K 屏需调整缩放);中文界面支持较弱(可修改前端代码适配)。
如果你愿意折腾环境,这可能是最接近“钢铁侠贾维斯”雏形的开源项目。 代码仓库:github.com/withneural/…
往期回顾:
🔥【开源项目】轻量加速利器 HubProxy自建 Docker、GitHub 下载加速服务