项目开源地址:github.com/ZG0704666/A…
项目官网:Aries AI - 开启手机智能新交互
项目背景
在人工智能快速发展的今天,大语言模型已经能够理解和生成自然语言,但如何让AI真正"操控"设备完成实际任务仍是一个挑战。Aries AI 是一款运行在Android手机上的智能执行助手(Phone Agent),用户只需用自然语言描述目标,AI就能自动理解屏幕内容并完成点击、输入、滑动等操作。
典型场景:
- "帮我订一张明天去北京的高铁票"
- "打开美团帮我订一个火锅店的位置,4个人"
- "在淘宝上帮我找一款性价比高的蓝牙耳机"
核心功能
多模态视觉感知
基于 AutoGLM-Aries-9B 视觉语言模型:
- 识别APP布局结构、按钮位置、文本内容
- 理解界面元素的含义和功能
- 根据当前页面状态做出智能决策
离线语音识别
集成 Sherpa-ncnn 引擎:
- 本地语音识别,无需联网
- 毫秒级响应速度
- 支持中文语音指令
虚拟屏幕后台执行(v1.3.0+)
创新功能:
- 后台创建独立虚拟屏幕运行任务
- 主屏幕可继续使用
- 小窗口显示任务进度
- 输入焦点隔离
安全接管机制
- 敏感操作自动暂停等待确认
- 失败操作自动重试
- 完整执行日志记录
技术架构
整体架构
┌───────────────────────────────┐
│ Aries AI架构 │
├─────────────┬─────────┬───────┤
│ UI层 │ 控制层 │ 工具层│
├─────────────┼─────────┼───────┤
│ 核心引擎层 │ 模型接入│ 系统服务
└─────────────┴─────────┴───────┘
云端大脑 + 本地执行
层级
组件
功能
云端大脑
AutoGLM-Aries-9B
多模态决策中心
本地客户端
Android终端
语音识别/自动化执行
执行层
无障碍服务
模拟点击/滑动
性能优化
优化项
优化前
优化后
响应时间
3.2s
1.8s
截图传输大小
250KB
85KB
关键优化:
- 智能截图压缩(质量85%)
- 流式早停机制
- 并行状态采集
- 操作合并执行
已实现的智能场景
适配 100+款主流应用:
生活服务
- 智能预订餐厅/酒店/机票
电商购物
- 商品筛选与比价
- 自动化下单
社交互动
- 自动点赞/评论
出行预订
- 12306火车票预订
快速上手
下载安装
- 官网下载:Aries AI 官网
- GitHub Releases:下载链接
权限配置
权限
必需
用途
无障碍服务
是
模拟操作
悬浮窗权限
推荐
显示任务进度
配置API Key
- 注册智谱开放平台
- 获取并配置API Key
开发者指南
环境要求
软件
版本要求
Android Studio
2023.1.1+
Android SDK
API 36
从源码构建
git clone https://github.com/ZG0704666/Aries-AI.git
cd Aries-AI
./gradlew assembleRelease
核心API
class UiAutomationAgent(config: AgentConfiguration) {
suspend fun run(apiKey: String)
}