❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎙️ “客服情绪拿不准?阿里黑科技让AI看表情听语气,推理过程堪比人类心理专家!”
大家好,我是蚝油菜花。你是否遇到过这些扎心场景——
- 👉 看监控视频分析顾客满意度,盯到眼酸还漏关键微表情
- 👉 听电话录音判断用户情绪,复杂语境下总误判投诉等级
- 👉 做影视剧情感分析,人工标注成本高且主观性强...
今天揭秘的 阿里通义R1-Omni ,正在重新定义情感计算!这个基于强化学习的多模态大模型,能同时「看」画面「听」声音:
- ✅ 穿透式情感分析:结合视觉微表情+语音语调,识别准确率超传统模型200%
- ✅ 白盒级推理解释:自动生成比心理医生诊断更透明决策逻辑,比心理医生诊断更透明
- ✅ 工业级泛化能力:在客服/影视/心理测评等场景零样本学习,3分钟极速部署
已有企业用它实时预警高危客诉,影视公司靠它批量分析观众情绪——你的业务准备好接入情感计算2.0时代了吗?
🚀 快速阅读
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务。
- 核心功能:结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
- 技术原理:采用 RLVR 训练范式和 GRPO 方法,简化奖励机制,增强模型区分高质量和低质量输出的能力。
R1-Omni 是什么
R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力。
在多个情感识别数据集上,R1-Omni 的性能显著优于监督微调(SFT)模型,在分布外场景中表现出色,具有很强的泛化能力。
R1-Omni 的主要功能
- 多模态情感分析:R1-Omni 能同时处理视觉和音频信息,对输入的视频或音频内容进行情感识别,准确判断其中所表达的情感。
- 可解释的推理过程:模型给出情感识别结果,能生成详细的推理过程。推理过程封装在特定的标签内,解释模型是如何整合视觉和音频线索得出预测的,增强了模型的可解释性。
- 基于 RLVR 的训练:R1-Omni 采用 RLVR 训练范式,基于可验证奖励函数直接评估输出,无需依赖单独的奖励模型。简化了奖励机制,同时确保了与任务内在正确性标准的一致性。
- GRPO 方法应用:结合 GRPO(生成相对策略优化)方法,直接比较生成的响应组,避免使用额外的评论家模型,增强了模型区分高质量和低质量输出的能力。
- 推理能力增强:相比其他基线模型,R1-Omni 提供了更连贯、准确和可解释的推理过程。
- 理解能力提高:在多个情感识别数据集上,R1-Omni 的情感识别准确率显著优于其他模型。
- 泛化能力更强:在分布外(OOD)数据集上,R1-Omni 表现出色,能够更好地适应未见场景。
R1-Omni 的技术原理
- RLVR 训练范式:RLVR 是新的训练范式,核心思想是基于验证函数直接评估模型输出,无需依赖传统的人类反馈强化学习(RLHF)中的单独奖励模型。给定输入问题 q,策略模型 πθ 生成响应 o,然后使用可验证奖励函数 R(q,o) 对其进行评估,优化目标是最大化验证奖励减去基于 KL 散度的正则化项。简化了奖励机制,同时确保了与任务内在正确性标准的一致性。
- GRPO 方法:GRPO(分组相对策略优化)是改进的强化学习方法,与传统的 PPO(近端策略优化)不同。GRPO 避免了使用额外的评论家模型,直接比较生成的响应组。具体过程是:针对一个问题 q,采样多组输出 {o1,o2,…,oG},对每个输出计算奖励分 {r1,r2,…,rG},然后对这些奖励分进行归一化处理,形成相对奖励。能更直接地反映同一问题下不同输出的优劣关系,增强模型区分高质量和低质量输出的能力。
- 冷启动策略:R1-Omni 的模型构建采用了受 DeepSeek-R1 启发的冷启动策略。首先,在包含 232 个可解释多模态情感推理数据集(EMER)样本和 348 个手动标注的 HumanOmni 数据集样本的组合数据集上,对 HumanOmni-0.5B 进行微调。使模型具备初步的推理能力,了解视觉和音频线索是如何对情感识别产生作用的。之后,通过 RLVR 训练进一步优化模型。
- 奖励函数设计:在 RLVR 训练过程中,奖励函数由两部分组成:准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度,格式奖励确保模型输出符合指定的 HTML 标签格式。保证了情感识别的准确性和输出的可解释性。
- 模型输出格式:R1-Omni 的输出预期包含两部分:推理过程和最终情感标签。推理过程封装在 标签内,解释模型如何整合视觉和音频线索得出预测;最终情感标签封装在 标签内,表示预测的情感。提供了情感识别结果,给出了详细的推理过程,增强了模型的可解释性。
如何运行 R1-Omni
1. 环境设置
我们的代码基于 R1-V 框架构建。要设置环境,请按照 R1-V 仓库
中的安装说明进行操作。
- R1-V 仓库:github.com/Deep-Agent/…
2. 推理
我们的推理代码基于 HumanOmni 的实现。为确保模型顺利运行推理,请按照以下步骤操作:
2.1 下载所需模型
- siglip-224:huggingface.co/google/sigl…
- whisper-large-v3:huggingface.co/openai/whis…
2.2 更新配置文件
- 在下载 R1-Omni 模型的目录中,找到 config.json 文件。
- 更新第 23 行和第 31 行的路径,指向保存模型的本地文件夹。
示例:更新 config.json
如果你将模型保存到以下本地路径:
/path/to/local/models/siglip-base-patch16-224
/path/to/local/models/whisper-large-v3
更新 config.json 中的相关行如下:
"mm_audio_tower": "/path/to/local/models/whisper-large-v3",
"mm_vision_tower": "/path/to/local/models/siglip-base-patch16-224"
我们提供了 inference.py 用于单视频推理。
python inference.py --modal video_audio \
--model_path ./R1-Omni-0.5B \
--video_path video.mp4 \
--instruct "As an emotional recognition expert; throughout the video, which emotion conveyed by the characters is the most obvious to you? Output the thinking process in <think> </think> and final emotion in <answer> </answer> tags."
资源
- GitHub 仓库:github.com/HumanMLLM/R…
- HuggingFace 模型库:huggingface.co/StarJiaxing…
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦