❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- Ichigo 是一个开源的多模态 AI 语音助手,能够实时处理语音和文本的交织序列。
- 它采用了混合模态早期融合技术,实现了低延迟的实时性能。
- 主要应用场景包括智能家居控制、虚拟个人助理、客户服务、教育和培训、健康咨询等。
正文(附运行示例)
Ichigo 是什么
Ichigo 是一个开源的多模态 AI 语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。通过将语音直接量化为离散令牌,并用统一的变换器架构同时处理语音和文本,实现了跨模态的联合推理和生成。这种方法不仅提高了处理速度,还降低了算力消耗,首令牌生成的延迟仅为 111 毫秒,让 Ichigo 能提供接近实时的语音交互体验。
Ichigo 的主要功能
- 实时语音处理:Ichigo 实时处理语音输入,将其转换为离散令牌,实现快速响应。
- 跨模态交互:支持语音和文本的交织序列处理,实现真正的跨模态交互。
- 多轮对话管理:在多轮对话中保持上下文理解,提供准确和个性化的回答。
- 模糊输入处理:面对不清晰的语音输入或背景噪音,请求用户重复,保证交互的准确性。
- 多语言支持:得益于多语言语音识别数据集的预训练,Ichigo 支持多种语言的处理。
Ichigo 的技术原理
- 混合模态早期融合:Ichigo 基于早期融合技术,将语音和文本数据在输入阶段合并处理,提高效率。
- 统一的变换器架构:用统一的变换器架构处理量化后的语音和文本令牌,支持跨模态学习和特征共享。
- 语音到令牌的转换:用 WhisperVQ 技术,将连续的语音信号转换为离散的令牌,以便模型处理。
- 低延迟的实时性能:首令牌生成的平均延迟仅为 111 毫秒,提供出色的实时处理能力。
- 多语言预训练:在预训练阶段使用多语言语音识别数据集,让模型具备处理多种语言的能力。
如何运行 Ichigo
本地环境安装
- 首先克隆仓库:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
- 安装依赖:
python -m venv hf_trainer
chmod +x scripts/install.sh
./scripts/install.sh
- 重启终端并激活环境:
chmod +x scripts/setup.sh
./scripts/setup.sh
source myenv/bin/activate
- 登录 Hugging Face:
huggingface-cli login --token=<token>
- 启动训练:
export CUTLASS_PATH="cutlass"
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
accelerate launch --config_file ./accelerate_config.yaml train.py
资源
- 项目官网:homebrew.ltd/blog/llama3…
- 项目演示:demo.homebrew.ltd/
- arXiv 技术论文:arxiv.org/pdf/2410.15…
- Hugging Face 模型库:huggingface.co/collections…
- GitHub 仓库:github.com/homebrewltd…
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦