Aries AI:比肩豆包手机!一款基于AutoGLM的智能手机助手APP,6年前的老安卓也可以丝滑体验豆包手机相同功能!

15 阅读3分钟

项目开源地址:github.com/ZG0704666/A…

项目官网:Aries AI - 开启手机智能新交互

项目背景

在人工智能快速发展的今天,大语言模型已经能够理解和生成自然语言,但如何让AI真正"操控"设备完成实际任务仍是一个挑战。Aries AI 是一款运行在Android手机上的智能执行助手(Phone Agent),用户只需用自然语言描述目标,AI就能自动理解屏幕内容并完成点击、输入、滑动等操作。

典型场景:

  • "帮我订一张明天去北京的高铁票"
  • "打开美团帮我订一个火锅店的位置,4个人"
  • "在淘宝上帮我找一款性价比高的蓝牙耳机"

核心功能

多模态视觉感知

基于 AutoGLM-Aries-9B 视觉语言模型:

  • 识别APP布局结构、按钮位置、文本内容
  • 理解界面元素的含义和功能
  • 根据当前页面状态做出智能决策

离线语音识别

集成 Sherpa-ncnn 引擎:

  • 本地语音识别,无需联网
  • 毫秒级响应速度
  • 支持中文语音指令

虚拟屏幕后台执行(v1.3.0+)

创新功能:

  • 后台创建独立虚拟屏幕运行任务
  • 主屏幕可继续使用
  • 小窗口显示任务进度
  • 输入焦点隔离

安全接管机制

  • 敏感操作自动暂停等待确认
  • 失败操作自动重试
  • 完整执行日志记录

技术架构

整体架构

┌───────────────────────────────┐
           Aries AI架构         
├─────────────┬─────────┬───────┤
 UI层         控制层   工具层
├─────────────┼─────────┼───────┤
 核心引擎层   模型接入 系统服务
└─────────────┴─────────┴───────┘

云端大脑 + 本地执行

层级

组件

功能

云端大脑

AutoGLM-Aries-9B

多模态决策中心

本地客户端

Android终端

语音识别/自动化执行

执行层

无障碍服务

模拟点击/滑动

性能优化

优化项

优化前

优化后

响应时间

3.2s

1.8s

截图传输大小

250KB

85KB

关键优化:

  • 智能截图压缩(质量85%)
  • 流式早停机制
  • 并行状态采集
  • 操作合并执行

已实现的智能场景

适配 100+款主流应用

生活服务

  • 智能预订餐厅/酒店/机票

电商购物

  • 商品筛选与比价
  • 自动化下单

社交互动

  • 自动点赞/评论

出行预订

  • 12306火车票预订

快速上手

下载安装

  1. 官网下载:Aries AI 官网
  2. GitHub Releases:下载链接

权限配置

权限

必需

用途

无障碍服务

模拟操作

悬浮窗权限

推荐

显示任务进度

配置API Key

  1. 注册智谱开放平台
  2. 获取并配置API Key

开发者指南

环境要求

软件

版本要求

Android Studio

2023.1.1+

Android SDK

API 36

从源码构建

git clone https://github.com/ZG0704666/Aries-AI.git
cd Aries-AI
./gradlew assembleRelease

核心API

class UiAutomationAgent(config: AgentConfiguration) {
  suspend fun run(apiKey: String)
}