多模态大模型部署与应用

多模态大模型部署与应用

多模态大模型部署与应用

识别或生成各种模态的模型的部署与应用

暂无订阅共4篇文章创建于2026-01-23

🥞Ubuntu24.04/BLIP/Gradio 服务本地部署

BLIP是一种统一视觉-语言理解和生成的多模态模型，其创新的MED架构支持三种模式，结合对比学习、匹配和生成任务。通过CapFilt方法自举清洗噪声数据，提升训练质量。

3月前
131
点赞
评论

🥞Ubuntu24.04/BLIP/Gradio 服务本地部署

🥯Ubuntu24.04/CosyVoice 2.0/Docker Compose 本地部署

CosyVoice 2.0是阿里巴巴开源的高性能语音生成模型，支持多语言和方言合成，能快速克隆音色。其首包延迟低至150毫秒，发音错误率降低30%-50%，MOS评分达5.53，接近真人水平

3月前
206
点赞
评论

🥯Ubuntu24.04/CosyVoice 2.0/Docker Compose 本地部署

🥨Ubuntu24.04/FunASR/Docker Compose 本地部署

FunASR是阿里巴巴开源的语音识别工具包，集成语音识别（ASR）、语音活动检测（VAD）与标点恢复，支持流式/非流式处理。其采用先进的Paraformer等模型，具有低延迟、高准确率的特点，并可通过

3月前
232
点赞
评论

🥨Ubuntu24.04/FunASR/Docker Compose 本地部署

🫓Ubuntu24.04/Whisper/Docker Compose 本地部署

OpenAI开源Whisper是基于Transformer的语音识别系统，凭借68万小时多语言训练数据，具备高鲁棒性。其提供五种模型规格，支持转录、翻译等多种任务，适用于会议记录、视频字幕等复杂场景。

3月前
195
点赞
评论

🫓Ubuntu24.04/Whisper/Docker Compose 本地部署