实时分析视频,AI连体育赛事都能专业解说!LiveCC:字节联合新加坡国立大学开源的实时视频解说模型

497 阅读4分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "解说员要失业?这个AI模型能实时分析视频,连体育赛事都能秒变专业解说"

大家好,我是蚝油菜花。你是否也遇到过这些视频观看痛点——

  • 👉 看体育比赛时听不懂专业术语,全程云里雾里
  • 👉 教学视频没有字幕和讲解,关键步骤总是错过
  • 👉 新闻直播缺少实时解读,重要信息一闪而过...

今天要介绍的 LiveCC ,正在重新定义视频观看体验!这个由字节跳动与新加坡国立大学联合打造的开源AI:

  • 实时解说生成:像人类解说员一样同步分析视频内容
  • 超低延迟处理:每帧响应时间小于0.5秒,真正实现"所见即所说"
  • 多场景适配:体育/新闻/教育内容通吃,支持语音文字双输出

已有体育平台用它做赛事自动解说,教育机构靠它生成课程旁白——你的视频,是时候配上「AI解说员」了!

🚀 快速阅读

LiveCC是一个基于自动语音识别字幕训练的实时视频解说模型。

  1. 功能:支持实时视频评论和视频问答,延迟低于0.5秒
  2. 技术:采用流式训练方法,结合Qwen2-VL模型架构处理视觉语言信息

LiveCC 是什么

livecc

LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。

LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。

LiveCC 的主要功能

  • 实时视频评论:根据视频内容生成连续的、与人类类似的实时评论,适用于体育赛事、新闻播报、教学视频等多种场景。
  • 视频问答:回答与视频内容相关的问题,帮助用户更好地理解视频中的事件和细节。
  • 低延迟处理:用极低的延迟(每帧小于0.5秒)处理视频流,支持实时应用。
  • 多场景适应:适用于多种视频类型,包括体育、新闻、教育、娱乐等。

LiveCC 的技术原理

  • 流式训练方法:将自动语音识别(ASR)的单词与视频帧按照时间戳密集交错,让模型学习到时间对齐的视觉-语言关系。模拟人类观看视频时的实时感知过程,让模型生成与视频内容紧密相关的评论。
  • 大规模数据集:从YouTube视频中提取的ASR字幕构建两个数据集:Live-CC-5M(用在预训练)和Live-WhisperX-526K(用在高质量监督微调)。数据集为模型提供丰富的训练素材。
  • 模型架构:基于Qwen2-VL模型架构,结合视觉编码器和语言模型,处理视频帧和文本信息。模型基于自回归的方式预测文本令牌,将视频令牌作为非预测输入。
  • 实时推理:在推理阶段,LiveCC模型逐帧处理输入视频,生成实时评论。为提高效率,模型缓存之前的提示、视觉帧和生成的文本,加速语言解码。
  • 评估方法:基于LiveSports-3K基准测试评估模型的实时评论能力,用LLM-as-a-judge框架比较不同模型生成的评论质量。

如何运行 LiveCC

安装

确保已安装Python版本>=3.11:

pip install torch torchvision torchaudio
pip install transformers accelerate deepspeed peft opencv-python decord datasets tensorboard gradio pillow-heif gpustat timm sentencepiece openai av==12.0.0 qwen_vl_utils liger_kernel numpy==1.24.4
pip install flash-attn --no-build-isolation
pip install livecc-utils

快速开始

Gradio演示

python demo/app.py

livecc-demo.png

命令行界面

python demo/cli.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦