【GitHub每日速递 20260417】谷歌放大招！这款AI App把Gemma 4装手机，聊天看图控设备全离线，数据根本不出门

谷歌放大招！这款AI App把Gemma 4装手机，聊天看图控设备全离线，数据根本不出门

[gallery] 是一个展示AI边缘计算应用案例的开源项目。简单讲，它提供了用Kotlin开发的移动端AI示范应用，帮助开发者理解如何在设备上运行AI模型。适用人群：Android开发者、AI应用开发者

项目地址：github.com/google-ai-e…

主要语言：Kotlin

stars: 19.4k

仓库简介

Google AI Edge Gallery是一个用于在移动设备上运行强大开源大语言模型（LLMs）的应用程序仓库。用户可以在本地设备上体验高性能的生成式AI，无需联网，保障了数据的隐私性。

主要优势

离线运行：所有模型推理都直接在设备硬件上进行，无需网络连接，确保了用户提示、图像和敏感数据的完全隐私。
支持最新模型：最新版本官方支持新发布的Gemma 4系列，用户可以体验前沿的设备端AI，具备高级推理、逻辑和创意能力。
功能丰富：提供了多种实用且有趣的功能，满足不同用户的需求。

核心功能

Agent Skills：将大语言模型从对话工具转变为主动助手，可借助维基百科等工具增强模型能力，还能从URL加载模块化技能或浏览社区贡献。
AI Chat with Thinking Mode：支持流畅的多轮对话，开启思考模式可查看模型的逐步推理过程，目前Gemma 4系列支持此功能。
Ask Image：利用多模态能力，通过设备相机或相册识别物体、解决视觉谜题或获取详细描述。
Audio Scribe：使用高效的设备端语言模型实时转录和翻译语音记录。
Prompt Lab：专门的工作区，可测试不同提示和单轮用例，并精细控制模型参数。
Mobile Actions：由FunctionGemma 270m微调版提供支持，可实现离线设备控制和自动化任务。
Tiny Garden：一个有趣的实验性小游戏，使用自然语言种植和收获虚拟花园。
Model Management & Benchmark：可轻松下载列表中的模型或加载自定义模型，管理模型库并进行基准测试，了解模型在特定硬件上的性能。

技术亮点

Google AI Edge：提供设备端机器学习的核心API和工具。
LiteRT：轻量级运行时，用于优化模型执行。
Hugging Face Integration：便于模型发现和下载。

应用场景

日常办公：可用于实时语音转录、多轮对话辅助决策等，提高工作效率。
学习研究：学生和研究人员可以利用模型进行知识查询、问题解决和创意启发。
娱乐休闲：玩Tiny Garden小游戏，享受自然语言交互的乐趣。

快速上手

系统要求：Android 12及以上，iOS 17及以上。
下载应用：可从Google Play或App Store安装；无Google Play访问权限的用户可从最新版本下载apk。
安装与探索：详细安装说明和用户指南可查看项目维基。

开发与反馈

开发：可查看开发说明了解如何在本地构建应用。
反馈：这是一个实验性的Beta版本，用户可通过这里报告bug，通过这里提出功能建议。

英伟达炸场新模型PersonaPlex！实时全双工语音对话，人设自由定+声线任选，聊天比真人还丝滑自然

[personaplex] 是一个实现多智能体角色扮演与交互的框架。简单讲，它能让多个AI角色模拟真实人物进行对话和协作，像演戏一样完成任务。适用人群：AI研究人员、开发者及对多智能体系统感兴趣的技术爱好者。

项目地址：github.com/NVIDIA/pers…

主要语言：Python

stars: 8.3k

核心功能

实时全双工语音对话：PersonaPlex是一个实时、全双工的语音到语音对话模型，能够实现自然、低延迟的语音交互。
角色和语音控制：通过基于文本的角色提示和基于音频的语音调节，实现对对话角色和语音的控制。
多样化语音支持：支持多种语音，包括自然和多样化的男女语音。
多场景对话：适用于多种对话场景，如问答、客户服务、闲聊等。

优势

自然流畅的交互：经过合成和真实对话的训练，能够产生具有一致角色的自然对话。
泛化能力强：基于Moshi架构和Helium LLM，对分布外的提示也能做出合理响应。
灵活的角色定制：可以通过不同的文本提示来定义角色，满足各种场景需求。

应用场景

智能客服：在客户服务场景中，根据不同的服务角色进行对话，提供准确的信息和解决方案。
语音助手：作为智能语音助手，以不同的角色和语音与用户进行交互。
聊天机器人：用于闲聊场景，为用户提供有趣的对话体验。

代码架构特点

基于Moshi架构和权重，继承了其相关特性。
提供了服务器启动和离线评估的脚本，方便用户进行实时交互和离线测试。

使用步骤

前提条件

安装Opus音频编解码器开发库，根据不同的操作系统使用相应的命令进行安装。

安装

下载仓库并使用pip install moshi/.进行安装。对于Blackwell基于的GPU，需要额外安装特定版本的PyTorch。

接受模型许可

登录Huggingface账户，接受PersonaPlex模型许可，并设置Huggingface认证。

启动服务器

可以使用临时SSL证书启动服务器进行实时交互，若GPU内存不足，可使用-cpu-offload标志将模型层卸载到CPU。

离线评估

使用离线脚本进行评估，输入音频文件并生成输出音频文件和文本。

语音选择

支持多种语音，包括自然女性（NATF0 - NATF3）、自然男性（NATM0 - NATM3）、多样女性（VARF0 - VARF4）和多样男性（VARM0 - VARM4）。

提示指南

助理角色：使用特定的提示用于问答助理的“用户中断”评估类别。
客户服务角色：支持多种不同的提示，用于不同的客户服务场景。
闲聊场景：提供了多种闲聊提示，适用于不同的闲聊话题。

泛化能力

由于基于Helium LLM的泛化能力，模型能够对分布外的提示做出合理响应，用户可以尝试不同的提示来测试其处理未知场景的能力。

原文：mp.weixin.qq.com/s/OKhRsJR7m…

欢迎关注公zh：AI Tech研习社

关注公zh，后台回复【OpenClaw完全使用手册】，领取OpenClaw完全使用手册.pdf学习资料，更多学习资源敬请期待。