PodAgent:港中文、微软、小红书联合推出的播客生成框架

160 阅读4分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎧 “播客创作新革命!港中文、微软、小红书联手推出PodAgent,AI自动生成高质量对话内容”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 播客创作耗时耗力,脚本撰写、声音匹配、后期制作让人头疼
  • 👉 想要快速生成高质量播客内容,却苦于缺乏专业工具
  • 👉 希望播客内容更具表现力和情感,但技术门槛太高...

今天揭秘的 PodAgent,用AI彻底颠覆播客创作方式!这个由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成丰富且结构化的对话内容,支持声音角色匹配和语音合成,让你的播客创作效率提升10倍!无论是媒体、教育还是企业推广,PodAgent 都能为你提供一站式解决方案——准备好迎接播客创作的新时代了吗?

🚀 快速阅读

PodAgent 是一个基于多智能体协作系统的播客生成框架,能够自动生成高质量对话内容。

  1. 核心功能:支持声音角色匹配、语音合成与表现力增强,生成完整的播客结构。
  2. 技术原理:基于大语言模型(LLM)的语音合成技术,结合多智能体协作系统,确保内容的专业性和多样性。

PodAgent 是什么

PodAgent

PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。

PodAgent 构建了多样化的声音库,用于精准匹配角色与声音,确保音频的自然度和沉浸感。通过引入基于大语言模型(LLM)的语音合成技术,PodAgent 能够生成富有表现力和情感的语音,让播客更具吸引力。

PodAgent 的主要功能

  • 生成高质量对话内容:自动生成丰富、多样化的对话脚本,涵盖各种主题。
  • 声音角色匹配:根据角色的性格和内容背景,动态匹配最适合的声音。
  • 语音合成与表现力增强:根据对话内容的情绪和语境调整语音的语调、节奏和情感,让播客更加生动。
  • 生成完整的播客结构:支持添加合适的音效和背景音乐,生成完整的播客结构。支持多语言生成,适应不同场景和听众的需求。
  • 评估与优化:提供全面的评估指标,衡量生成播客的质量,包括对话内容的丰富度、声音匹配的准确性及语音的表现力。

PodAgent 的技术原理

  • 多智能体协作系统
    • 主持人:负责制定对话大纲,引导话题讨论。
    • 嘉宾:根据角色设定提供专业见解和观点。
    • 编剧:整合对话内容,优化脚本的连贯性和多样性。
  • 声音特征分析与匹配:构建声音库,分析声音的特征(如音色、语调、情感等),为每个角色匹配最适合的声音。用开源数据集(如 LibriTTS 和 AISHELL-3)提取声音样本,基于去重和筛选生成多样化的声音库。
  • LLM 引导的语音合成:用基于大语言模型(LLM)的语音合成技术,将文本内容转化为自然、富有表现力的语音。将 LLM 预测的说话风格作为指令,指导语音合成模型(如 CosyVoice)生成与内容情绪相匹配的语音。
  • 综合评估指标:推出一套评估指标,用于衡量生成播客的质量。指标包括对话内容的词汇多样性、语义丰富度、信息密度,及声音匹配的准确性和语音的表现力。基于 LLM 作为评估工具,对生成内容进行比较和打分。

如何运行 PodAgent

1. 下载代码

git clone https://github.com/yujxx/PodAgent.git

2. 下载 CosyVoice

cd PodAgent
mkdir TTS
cd TTS
git clone https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive
cd ../..

3. 环境配置

bash ./scripts/EnvsSetup.sh

或者逐步配置环境:

conda create -n podcast -y python=3.10
conda activate podcast
conda install -y -c conda-forge pynini==2.1.5
pip install -r TTS/CosyVoice/requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install -U git+https://git@github.com/facebookresearch/audiocraft@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install pip==23.2.1
pip install -r requirements.txt

4. 下载模型

python scripts/download_models.py

5. 启动服务

bash scripts/start_services.sh

6. 使用 PodAgent

python podagent.py --topic "What are the primary factors that influence consumer behavior?" --guest-number "2" --session-id "test"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦