模型部署教程

模型部署教程

模型部署教程

分享各类热门开源大模型、镜像部署教程，助力广大AI爱好者！

等 11 人订阅共73篇文章创建于2025-05-29

Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽

SAM 3 是一个统一的基础模型，用于图像和视频中的可提示分割。它可以使用文本或视觉提示（如点、框和掩码）来检测、分割和跟踪对象。

6月前
997
点赞
评论

Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽

基于GitHub Actions与算力平台API：构建端到端的模型自动训练与部署流水线

在机器学习项目的迭代过程中，持续集成与持续部署已成为提升团队协作效率和模型交付速度的关键。通过将算力平台的API能力嵌入GitHub Actions工作流，我们可以构建一套端到端的自动化管道。

6月前
219
点赞
评论

基于GitHub Actions与算力平台API：构建端到端的模型自动训练与部署流水线

解决AI任务排队难题：基于Slurm的优先级调度与资源抢占策略配置详解

在高负荷的AI算力平台中，任务排队是影响研发效率的核心瓶颈。本文将深入介绍基于Slurm作业调度系统的优先级调度机制与资源抢占策略，通过实际配置案例展示如何优化计算资源分配，显著减少任务空闲等待时间。

6月前
299
点赞
评论

解决AI任务排队难题：基于Slurm的优先级调度与资源抢占策略配置详解

PaddleOCR-VL-vLLM-OpenAI-API使用教程来了！手把手教你搞定文档解析

PaddleOCR-VL 是一个基于视觉语言模型的多功能图像识别工具，支持 OCR 文字识别、表格识别、公式识别和图表识别等功能。本文档介绍如何通过 OpenAI 兼容的 API 接口使用该模型。

6月前
1.5k
点赞
评论

PaddleOCR-VL-vLLM-OpenAI-API使用教程来了！手把手教你搞定文档解析

告别繁琐文档处理！PaddleOCR-VL-vLLM-OpenAI-API本地部署教程：精准解析文本/表格/公式

PaddleOCR-VL-vLLM-OpenAI-API 是一款先进、高效的文档解析模型，专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B。

6月前
525
点赞
评论

告别繁琐文档处理！PaddleOCR-VL-vLLM-OpenAI-API本地部署教程：精准解析文本/表格/公式

视觉-文本压缩框架——Glyph本地部署教程，以视觉压缩重塑长上下文处理范式

Glyph是一个通过视觉文本压缩缩放上下文长度的框架。 Glyph 没有扩展基于标记的上下文窗口，而是将长文本序列渲染为图像并使用视觉语言模型（VLM）对其进行处理。

6月前
184
点赞
评论

视觉-文本压缩框架——Glyph本地部署教程，以视觉压缩重塑长上下文处理范式

PaddleOCR-VL本地部署教程：0.9B参数问鼎全球第一，轻量化模型实现多模态文档解析SOTA

PaddleOCR-VL 是一个针对文档解析的 SOTA 和资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B，这是一个紧凑而强大的视觉语言模型（VLM）。

7月前
590
1
评论

PaddleOCR-VL本地部署教程：0.9B参数问鼎全球第一，轻量化模型实现多模态文档解析SOTA

DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式

DeepSeek-OCR 是深度求索（DeepSeek）于 2025 年 10 月 20 日开源的一款革命性 OCR 模型，其核心创新在于提出了上下文光学压缩的技术。

7月前
2.0k
5
评论

DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式

SAIL-VL2本地部署教程：2B/8B参数媲美大规模模型，为轻量级设备量身打造的多模态大脑

SAIL-VL2 是由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合推出的一个多模态大模型，它在保持较小参数规模的同时，实现了媲美甚至超越部分大规模模型的性能。

7月前
291
1
评论

SAIL-VL2本地部署教程：2B/8B参数媲美大规模模型，为轻量级设备量身打造的多模态大脑

阿里最新开源！轻量级视觉模型Qwen3-VL-4B&8B-Instruct本地部署教程：小参数媲美顶尖模型

Qwen3-VL 是迄今为止 Qwen 系列中最强大的视觉语言模型。这一代产品全面升级：卓越的文本理解和生成、更深层次的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解。

7月前
2.5k
4
评论

阿里最新开源！轻量级视觉模型Qwen3-VL-4B&8B-Instruct本地部署教程：小参数媲美顶尖模型

Wan2.2-Animate-14B 使用指南：从图片到动画的完整教程

本镜像基于 ComfyUI 进行部署，已经下载了Wan2.2-Animate-14B动作模仿和人物替换模型，下面将带您快速了解本模型的基本使用

7月前
1.8k
点赞
评论

Wan2.2-Animate-14B 使用指南：从图片到动画的完整教程

化学专业大型语言模型——SparkChemistry-X1-13B本地部署教程：洞察分子特性，精准预测化学行为

iFLYTEK Spark Chemistry-X1-13B 是由 iFLYTEK 团队开发的化学专业大型语言模型。

7月前
198
1
评论

化学专业大型语言模型——SparkChemistry-X1-13B本地部署教程：洞察分子特性，精准预测化学行为

阿里最新开源Wan2.2-Animate-14B 本地部署教程：统一双模态框架，MoE架构赋能电影级角色动画与替换

阿里巴巴旗下 Wan 团队在9月19日正式开源 Wan2.2-Animate-14B（简称 Wan-Animate）模型，这一高保真角色动画生成框架迅速成为 AI 视频领域的焦点。

8月前
4.4k
1
评论

阿里最新开源Wan2.2-Animate-14B 本地部署教程：统一双模态框架，MoE架构赋能电影级角色动画与替换

PDF解析神器——MinerU本地部署教程，一键去除页眉页脚，精准提取公式表格，支持84种语言，让文档转换更简单！

MinerU 是由上海人工智能实验室（OpenDataLab）团队开发的一款开源智能文档解析工具，专注于将复杂的PDF文档、网页和电子书内容，高效、精准地提取并转换为机器可读的结构化格式。

8月前
1.8k
2
1

PDF解析神器——MinerU本地部署教程，一键去除页眉页脚，精准提取公式表格，支持84种语言，让文档转换更简单！

模糊高清修复真王炸！ComfyUI-SeedVR2-Kontext(画质修复+P图)本地部署教程

SeedVR2_comfyUI 是由字节跳动 Seed 实验室与南洋理工大学 S-Lab 联合开源的一步式图像高清修复模型，专为 ComfyUI 用户开发的插件版本。

8月前
2.3k
2
评论

模糊高清修复真王炸！ComfyUI-SeedVR2-Kontext(画质修复+P图)本地部署教程

7B参数拿下30个世界第一！Hunyuan-MT-7B本地部署教程：腾讯混元开源业界首个翻译集成模型

Hunyuan-MT-7B 是腾讯混元团队发布的轻量级翻译模型，参数量仅 70 亿，支持 33 个语种及 5 种民汉语言/方言互译。

8月前
1.5k
4
评论

7B参数拿下30个世界第一！Hunyuan-MT-7B本地部署教程：腾讯混元开源业界首个翻译集成模型

AI配音革命！B站最新开源IndexTTS2本地部署教程：精准对口型，情感随心换

哔哩哔哩（B 站）Index 团队近日开源了一款情感可控、时长可调的工业级自回归零样本文本转语音（TTS）系统 —— IndexTTS2。

8月前
4.5k
2
评论

AI配音革命！B站最新开源IndexTTS2本地部署教程：精准对口型，情感随心换

一张图+一段音频=电影级视频！阿里Wan2.2-S2V-14B本地部署教程：实现丝滑口型同步

Wan2.2-S2V-14B 是阿里巴巴通义万相团队在8月底开源的一款音频驱动的多模态视频生成模型。为了解决实现电影级角色动画这一长期挑战，团队提出了一种基于 Wan 的音频驱动模型。

8月前
1.0k
点赞
评论

一张图+一段音频=电影级视频！阿里Wan2.2-S2V-14B本地部署教程：实现丝滑口型同步

面壁智能开源多模态大模型——MiniCPM-V 4.5本地部署教程：8B参数开启多模态“高刷”时代！

MiniCPM-V 4.5 是 OpenBMB 最新 8B 多模态大模型，基于 Qwen3-8B + SigLIP2-400M，在 OpenCompass 平均 77.0 分。

8月前
1.5k
点赞
评论

面壁智能开源多模态大模型——MiniCPM-V 4.5本地部署教程：8B参数开启多模态“高刷”时代！

ComfyUI-MultiTalk本地部署教程：创新L-RoPE机制破解多音频流绑定难题，定义多人对话视频生成新SOTA！

MultiTalk 是由中山大学、美团和香港科技大学联合研发的一款音频驱动的多人对话视频生成框架。它能够根据多路音频输入、参考图像和文本提示，生成包含多个角色互动且唇形与语音高度同步的视频。

8月前
389
点赞
评论

ComfyUI-MultiTalk本地部署教程：创新L-RoPE机制破解多音频流绑定难题，定义多人对话视频生成新SOTA！