Ichigo：开源 AI 语音助手，能够实时处理语音和文本的交织序列，提供接近实时的语音交互体验Ichigo 是一个开源

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

Ichigo 是一个开源的多模态 AI 语音助手，能够实时处理语音和文本的交织序列。
它采用了混合模态早期融合技术，实现了低延迟的实时性能。
主要应用场景包括智能家居控制、虚拟个人助理、客户服务、教育和培训、健康咨询等。

正文（附运行示例）

Ichigo 是什么

Ichigo 是一个开源的多模态 AI 语音助手，采用混合模态模型，能实时处理语音和文本的交织序列。通过将语音直接量化为离散令牌，并用统一的变换器架构同时处理语音和文本，实现了跨模态的联合推理和生成。这种方法不仅提高了处理速度，还降低了算力消耗，首令牌生成的延迟仅为 111 毫秒，让 Ichigo 能提供接近实时的语音交互体验。

Ichigo 的主要功能

实时语音处理：Ichigo 实时处理语音输入，将其转换为离散令牌，实现快速响应。
跨模态交互：支持语音和文本的交织序列处理，实现真正的跨模态交互。
多轮对话管理：在多轮对话中保持上下文理解，提供准确和个性化的回答。
模糊输入处理：面对不清晰的语音输入或背景噪音，请求用户重复，保证交互的准确性。
多语言支持：得益于多语言语音识别数据集的预训练，Ichigo 支持多种语言的处理。

Ichigo 的技术原理

混合模态早期融合：Ichigo 基于早期融合技术，将语音和文本数据在输入阶段合并处理，提高效率。
统一的变换器架构：用统一的变换器架构处理量化后的语音和文本令牌，支持跨模态学习和特征共享。
语音到令牌的转换：用 WhisperVQ 技术，将连续的语音信号转换为离散的令牌，以便模型处理。
低延迟的实时性能：首令牌生成的平均延迟仅为 111 毫秒，提供出色的实时处理能力。
多语言预训练：在预训练阶段使用多语言语音识别数据集，让模型具备处理多种语言的能力。

如何运行 Ichigo

本地环境安装

首先克隆仓库：

git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git

安装依赖：

python -m venv hf_trainer
chmod +x scripts/install.sh
./scripts/install.sh

重启终端并激活环境：

chmod +x scripts/setup.sh
./scripts/setup.sh
source myenv/bin/activate

huggingface-cli login --token=<token>

启动训练：

export CUTLASS_PATH="cutlass"
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
accelerate launch --config_file ./accelerate_config.yaml train.py

资源

项目官网：homebrew.ltd/blog/llama3…
项目演示：demo.homebrew.ltd/
arXiv 技术论文：arxiv.org/pdf/2410.15…
Hugging Face 模型库：huggingface.co/collections…
GitHub 仓库：github.com/homebrewltd…

🥦 微信公众号｜搜一搜：蚝油菜花 🥦