【GitHub每日速递 20260417】谷歌放大招!这款AI App把Gemma 4装手机,聊天看图控设备全离线,数据根本不出门

0 阅读6分钟

谷歌放大招!这款AI App把Gemma 4装手机,聊天看图控设备全离线,数据根本不出门

[gallery] 是一个展示AI边缘计算应用案例的开源项目。简单讲,它提供了用Kotlin开发的移动端AI示范应用,帮助开发者理解如何在设备上运行AI模型。适用人群:Android开发者、AI应用开发者

项目地址:github.com/google-ai-e…

主要语言:Kotlin

stars: 19.4k

1

仓库简介

Google AI Edge Gallery是一个用于在移动设备上运行强大开源大语言模型(LLMs)的应用程序仓库。用户可以在本地设备上体验高性能的生成式AI,无需联网,保障了数据的隐私性。

主要优势

  • 离线运行:所有模型推理都直接在设备硬件上进行,无需网络连接,确保了用户提示、图像和敏感数据的完全隐私。
  • 支持最新模型:最新版本官方支持新发布的Gemma 4系列,用户可以体验前沿的设备端AI,具备高级推理、逻辑和创意能力。
  • 功能丰富:提供了多种实用且有趣的功能,满足不同用户的需求。

核心功能

  • Agent Skills:将大语言模型从对话工具转变为主动助手,可借助维基百科等工具增强模型能力,还能从URL加载模块化技能或浏览社区贡献。
  • AI Chat with Thinking Mode:支持流畅的多轮对话,开启思考模式可查看模型的逐步推理过程,目前Gemma 4系列支持此功能。
  • Ask Image:利用多模态能力,通过设备相机或相册识别物体、解决视觉谜题或获取详细描述。
  • Audio Scribe:使用高效的设备端语言模型实时转录和翻译语音记录。
  • Prompt Lab:专门的工作区,可测试不同提示和单轮用例,并精细控制模型参数。
  • Mobile Actions:由FunctionGemma 270m微调版提供支持,可实现离线设备控制和自动化任务。
  • Tiny Garden:一个有趣的实验性小游戏,使用自然语言种植和收获虚拟花园。
  • Model Management & Benchmark:可轻松下载列表中的模型或加载自定义模型,管理模型库并进行基准测试,了解模型在特定硬件上的性能。

技术亮点

  • Google AI Edge:提供设备端机器学习的核心API和工具。
  • LiteRT:轻量级运行时,用于优化模型执行。
  • Hugging Face Integration:便于模型发现和下载。

应用场景

  • 日常办公:可用于实时语音转录、多轮对话辅助决策等,提高工作效率。
  • 学习研究:学生和研究人员可以利用模型进行知识查询、问题解决和创意启发。
  • 娱乐休闲:玩Tiny Garden小游戏,享受自然语言交互的乐趣。

快速上手

  • 系统要求:Android 12及以上,iOS 17及以上。
  • 下载应用:可从Google PlayApp Store安装;无Google Play访问权限的用户可从最新版本下载apk。
  • 安装与探索:详细安装说明和用户指南可查看项目维基

开发与反馈

  • 开发:可查看开发说明了解如何在本地构建应用。
  • 反馈:这是一个实验性的Beta版本,用户可通过这里报告bug,通过这里提出功能建议。

英伟达炸场新模型PersonaPlex!实时全双工语音对话,人设自由定+声线任选,聊天比真人还丝滑自然

[personaplex] 是一个 实现多智能体角色扮演与交互 的 框架。简单讲,它能让多个AI角色模拟真实人物进行对话和协作,像演戏一样完成任务。适用人群:AI研究人员、开发者及对多智能体系统感兴趣的技术爱好者。

项目地址:github.com/NVIDIA/pers…

主要语言:Python

stars: 8.3k

2

核心功能

  • 实时全双工语音对话:PersonaPlex是一个实时、全双工的语音到语音对话模型,能够实现自然、低延迟的语音交互。
  • 角色和语音控制:通过基于文本的角色提示和基于音频的语音调节,实现对对话角色和语音的控制。
  • 多样化语音支持:支持多种语音,包括自然和多样化的男女语音。
  • 多场景对话:适用于多种对话场景,如问答、客户服务、闲聊等。

优势

  • 自然流畅的交互:经过合成和真实对话的训练,能够产生具有一致角色的自然对话。
  • 泛化能力强:基于Moshi架构和Helium LLM,对分布外的提示也能做出合理响应。
  • 灵活的角色定制:可以通过不同的文本提示来定义角色,满足各种场景需求。

应用场景

  • 智能客服:在客户服务场景中,根据不同的服务角色进行对话,提供准确的信息和解决方案。
  • 语音助手:作为智能语音助手,以不同的角色和语音与用户进行交互。
  • 聊天机器人:用于闲聊场景,为用户提供有趣的对话体验。

代码架构特点

  • 基于Moshi架构和权重,继承了其相关特性。
  • 提供了服务器启动和离线评估的脚本,方便用户进行实时交互和离线测试。

使用步骤

前提条件

  • 安装Opus音频编解码器开发库,根据不同的操作系统使用相应的命令进行安装。

安装

  • 下载仓库并使用pip install moshi/.进行安装。对于Blackwell基于的GPU,需要额外安装特定版本的PyTorch。

接受模型许可

  • 登录Huggingface账户,接受PersonaPlex模型许可,并设置Huggingface认证。

启动服务器

  • 可以使用临时SSL证书启动服务器进行实时交互,若GPU内存不足,可使用-cpu-offload标志将模型层卸载到CPU。

离线评估

  • 使用离线脚本进行评估,输入音频文件并生成输出音频文件和文本。

语音选择

  • 支持多种语音,包括自然女性(NATF0 - NATF3)、自然男性(NATM0 - NATM3)、多样女性(VARF0 - VARF4)和多样男性(VARM0 - VARM4)。

提示指南

  • 助理角色:使用特定的提示用于问答助理的“用户中断”评估类别。
  • 客户服务角色:支持多种不同的提示,用于不同的客户服务场景。
  • 闲聊场景:提供了多种闲聊提示,适用于不同的闲聊话题。

泛化能力

  • 由于基于Helium LLM的泛化能力,模型能够对分布外的提示做出合理响应,用户可以尝试不同的提示来测试其处理未知场景的能力。

原文:mp.weixin.qq.com/s/OKhRsJR7m…

欢迎关注公zh:AI Tech研习社

关注公zh,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。