首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
多模态大模型 部署与应用
Lil_Mino
创建于2026-01-23
订阅专栏
识别或生成各种模态的模型的部署与应用
暂无订阅
共4篇文章
创建于2026-01-23
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
🥞Ubuntu24.04/BLIP/Gradio 服务本地部署
BLIP是一种统一视觉-语言理解和生成的多模态模型,其创新的MED架构支持三种模式,结合对比学习、匹配和生成任务。通过CapFilt方法自举清洗噪声数据,提升训练质量。
🥯Ubuntu24.04/CosyVoice 2.0/Docker Compose 本地部署
CosyVoice 2.0是阿里巴巴开源的高性能语音生成模型,支持多语言和方言合成,能快速克隆音色。其首包延迟低至150毫秒,发音错误率降低30%-50%,MOS评分达5.53,接近真人水平
🥨Ubuntu24.04/FunASR/Docker Compose 本地部署
FunASR是阿里巴巴开源的语音识别工具包,集成语音识别(ASR)、语音活动检测(VAD)与标点恢复,支持流式/非流式处理。其采用先进的Paraformer等模型,具有低延迟、高准确率的特点,并可通过
🫓Ubuntu24.04/Whisper/Docker Compose 本地部署
OpenAI开源Whisper是基于Transformer的语音识别系统,凭借68万小时多语言训练数据,具备高鲁棒性。其提供五种模型规格,支持转录、翻译等多种任务,适用于会议记录、视频字幕等复杂场景。