谷歌放大招!这款AI App把Gemma 4装手机,聊天看图控设备全离线,数据根本不出门
[gallery] 是一个展示AI边缘计算应用案例的开源项目。简单讲,它提供了用Kotlin开发的移动端AI示范应用,帮助开发者理解如何在设备上运行AI模型。适用人群:Android开发者、AI应用开发者
主要语言:Kotlin
stars: 19.4k
仓库简介
Google AI Edge Gallery是一个用于在移动设备上运行强大开源大语言模型(LLMs)的应用程序仓库。用户可以在本地设备上体验高性能的生成式AI,无需联网,保障了数据的隐私性。
主要优势
- 离线运行:所有模型推理都直接在设备硬件上进行,无需网络连接,确保了用户提示、图像和敏感数据的完全隐私。
- 支持最新模型:最新版本官方支持新发布的Gemma 4系列,用户可以体验前沿的设备端AI,具备高级推理、逻辑和创意能力。
- 功能丰富:提供了多种实用且有趣的功能,满足不同用户的需求。
核心功能
- Agent Skills:将大语言模型从对话工具转变为主动助手,可借助维基百科等工具增强模型能力,还能从URL加载模块化技能或浏览社区贡献。
- AI Chat with Thinking Mode:支持流畅的多轮对话,开启思考模式可查看模型的逐步推理过程,目前Gemma 4系列支持此功能。
- Ask Image:利用多模态能力,通过设备相机或相册识别物体、解决视觉谜题或获取详细描述。
- Audio Scribe:使用高效的设备端语言模型实时转录和翻译语音记录。
- Prompt Lab:专门的工作区,可测试不同提示和单轮用例,并精细控制模型参数。
- Mobile Actions:由FunctionGemma 270m微调版提供支持,可实现离线设备控制和自动化任务。
- Tiny Garden:一个有趣的实验性小游戏,使用自然语言种植和收获虚拟花园。
- Model Management & Benchmark:可轻松下载列表中的模型或加载自定义模型,管理模型库并进行基准测试,了解模型在特定硬件上的性能。
技术亮点
- Google AI Edge:提供设备端机器学习的核心API和工具。
- LiteRT:轻量级运行时,用于优化模型执行。
- Hugging Face Integration:便于模型发现和下载。
应用场景
- 日常办公:可用于实时语音转录、多轮对话辅助决策等,提高工作效率。
- 学习研究:学生和研究人员可以利用模型进行知识查询、问题解决和创意启发。
- 娱乐休闲:玩Tiny Garden小游戏,享受自然语言交互的乐趣。
快速上手
- 系统要求:Android 12及以上,iOS 17及以上。
- 下载应用:可从Google Play或App Store安装;无Google Play访问权限的用户可从最新版本下载apk。
- 安装与探索:详细安装说明和用户指南可查看项目维基。
开发与反馈
英伟达炸场新模型PersonaPlex!实时全双工语音对话,人设自由定+声线任选,聊天比真人还丝滑自然
[personaplex] 是一个 实现多智能体角色扮演与交互 的 框架。简单讲,它能让多个AI角色模拟真实人物进行对话和协作,像演戏一样完成任务。适用人群:AI研究人员、开发者及对多智能体系统感兴趣的技术爱好者。
主要语言:Python
stars: 8.3k
核心功能
- 实时全双工语音对话:PersonaPlex是一个实时、全双工的语音到语音对话模型,能够实现自然、低延迟的语音交互。
- 角色和语音控制:通过基于文本的角色提示和基于音频的语音调节,实现对对话角色和语音的控制。
- 多样化语音支持:支持多种语音,包括自然和多样化的男女语音。
- 多场景对话:适用于多种对话场景,如问答、客户服务、闲聊等。
优势
- 自然流畅的交互:经过合成和真实对话的训练,能够产生具有一致角色的自然对话。
- 泛化能力强:基于Moshi架构和Helium LLM,对分布外的提示也能做出合理响应。
- 灵活的角色定制:可以通过不同的文本提示来定义角色,满足各种场景需求。
应用场景
- 智能客服:在客户服务场景中,根据不同的服务角色进行对话,提供准确的信息和解决方案。
- 语音助手:作为智能语音助手,以不同的角色和语音与用户进行交互。
- 聊天机器人:用于闲聊场景,为用户提供有趣的对话体验。
代码架构特点
- 基于Moshi架构和权重,继承了其相关特性。
- 提供了服务器启动和离线评估的脚本,方便用户进行实时交互和离线测试。
使用步骤
前提条件
- 安装Opus音频编解码器开发库,根据不同的操作系统使用相应的命令进行安装。
安装
- 下载仓库并使用
pip install moshi/.进行安装。对于Blackwell基于的GPU,需要额外安装特定版本的PyTorch。
接受模型许可
- 登录Huggingface账户,接受PersonaPlex模型许可,并设置Huggingface认证。
启动服务器
- 可以使用临时SSL证书启动服务器进行实时交互,若GPU内存不足,可使用
-cpu-offload标志将模型层卸载到CPU。
离线评估
- 使用离线脚本进行评估,输入音频文件并生成输出音频文件和文本。
语音选择
- 支持多种语音,包括自然女性(NATF0 - NATF3)、自然男性(NATM0 - NATM3)、多样女性(VARF0 - VARF4)和多样男性(VARM0 - VARM4)。
提示指南
- 助理角色:使用特定的提示用于问答助理的“用户中断”评估类别。
- 客户服务角色:支持多种不同的提示,用于不同的客户服务场景。
- 闲聊场景:提供了多种闲聊提示,适用于不同的闲聊话题。
泛化能力
- 由于基于Helium LLM的泛化能力,模型能够对分布外的提示做出合理响应,用户可以尝试不同的提示来测试其处理未知场景的能力。
原文:mp.weixin.qq.com/s/OKhRsJR7m…
欢迎关注公zh:AI Tech研习社
关注公zh,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。