首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
模型部署教程
算家计算
创建于2025-05-29
订阅专栏
分享各类热门开源大模型、镜像部署教程,助力广大AI爱好者!
等 8 人订阅
共69篇文章
创建于2025-05-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
告别繁琐文档处理!PaddleOCR-VL-vLLM-OpenAI-API本地部署教程:精准解析文本/表格/公式
PaddleOCR-VL-vLLM-OpenAI-API 是一款先进、高效的文档解析模型,专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B。
视觉-文本压缩框架——Glyph本地部署教程,以视觉压缩重塑长上下文处理范式
Glyph是一个通过视觉文本压缩缩放上下文长度的框架。 Glyph 没有扩展基于标记的上下文窗口,而是将长文本序列渲染为图像并使用视觉语言模型 (VLM) 对其进行处理。
PaddleOCR-VL本地部署教程:0.9B参数问鼎全球第一,轻量化模型实现多模态文档解析SOTA
PaddleOCR-VL 是一个针对文档解析的 SOTA 和资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉语言模型(VLM)。
DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式
DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出了上下文光学压缩的技术。
SAIL-VL2本地部署教程:2B/8B参数媲美大规模模型,为轻量级设备量身打造的多模态大脑
SAIL-VL2 是由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合推出的一个多模态大模型,它在保持较小参数规模的同时,实现了媲美甚至超越部分大规模模型的性能。
阿里最新开源!轻量级视觉模型Qwen3-VL-4B&8B-Instruct本地部署教程:小参数媲美顶尖模型
Qwen3-VL 是迄今为止 Qwen 系列中最强大的视觉语言模型。 这一代产品全面升级:卓越的文本理解和生成、更深层次的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解。
Wan2.2-Animate-14B 使用指南:从图片到动画的完整教程
本镜像基于 ComfyUI 进行部署,已经下载了Wan2.2-Animate-14B动作模仿和人物替换模型,下面将带您快速了解本模型的基本使用
化学专业大型语言模型——SparkChemistry-X1-13B本地部署教程:洞察分子特性,精准预测化学行为
iFLYTEK Spark Chemistry-X1-13B 是由 iFLYTEK 团队开发的化学专业大型语言模型。
阿里最新开源Wan2.2-Animate-14B 本地部署教程:统一双模态框架,MoE架构赋能电影级角色动画与替换
阿里巴巴旗下 Wan 团队在9月19日正式开源 Wan2.2-Animate-14B(简称 Wan-Animate)模型,这一高保真角色动画生成框架迅速成为 AI 视频领域的焦点。
PDF解析神器——MinerU本地部署教程,一键去除页眉页脚,精准提取公式表格,支持84种语言,让文档转换更简单!
MinerU 是由上海人工智能实验室(OpenDataLab)团队开发的一款开源智能文档解析工具,专注于将复杂的PDF文档、网页和电子书内容,高效、精准地提取并转换为机器可读的结构化格式。
模糊高清修复真王炸!ComfyUI-SeedVR2-Kontext(画质修复+P图)本地部署教程
SeedVR2_comfyUI 是由字节跳动 Seed 实验室与南洋理工大学 S-Lab 联合开源的 一步式图像高清修复模型 ,专为 ComfyUI 用户开发的插件版本。
7B参数拿下30个世界第一!Hunyuan-MT-7B本地部署教程:腾讯混元开源业界首个翻译集成模型
Hunyuan-MT-7B 是腾讯混元团队发布的轻量级翻译模型,参数量仅 70 亿,支持 33 个语种及 5 种民汉语言/方言互译。
AI配音革命!B站最新开源IndexTTS2本地部署教程:精准对口型,情感随心换
哔哩哔哩(B 站)Index 团队近日开源了一款情感可控、时长可调的工业级自回归零样本文本转语音(TTS)系统 —— IndexTTS2。
一张图+一段音频=电影级视频!阿里Wan2.2-S2V-14B本地部署教程:实现丝滑口型同步
Wan2.2-S2V-14B 是阿里巴巴通义万相团队在8月底开源的一款音频驱动的多模态视频生成模型。 为了解决实现电影级角色动画这一长期挑战,团队提出了一种基于 Wan 的音频驱动模型。
面壁智能开源多模态大模型——MiniCPM-V 4.5本地部署教程:8B参数开启多模态“高刷”时代!
MiniCPM-V 4.5 是 OpenBMB 最新 8B 多模态大模型,基于 Qwen3-8B + SigLIP2-400M,在 OpenCompass 平均 77.0 分。
ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!
MultiTalk 是由中山大学、美团和香港科技大学联合研发的一款音频驱动的多人对话视频生成框架。它能够根据多路音频输入、参考图像和文本提示,生成包含多个角色互动且唇形与语音高度同步的视频。
一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成
EchoMimicV3 是蚂蚁集团在8月底开源的一款高效、多模态、多任务的13亿参数数字人视频生成框架。
腾讯最新开源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架构,重新定义视频音效新SOTA!
HunyuanVideo-Foley 是腾讯混元团队在2025年8月底开源的一款端到端视频音效生成模型。
新一代实时检测工具——YOLOv13本地部署教程,复杂场景,一目了然!
YOLOv13 隆重推出 ——新一代实时检测器,拥有尖端的性能和效率。YOLOv13 系列包含四个版本:Nano、Small、Large 和 X-Large。
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型,也是目前在复杂文本(尤其是中文)渲染方面表现最好的开源文生图大模型之一。
下一页