Ollama 0.13.x发布：OCR、代码智能体、多模态全拉满，本地AI再进化Ollama 在 2025 年 11 月

Ollama 在 2025 年 11 月至 12 月期间连续发布了 v0.13.0、v0.13.1、v0.13.2 和 v0.13.3 四个版本，带来了大量新特性、模型支持、性能优化和系统兼容性改进。

一、新增多款前沿模型支持

Ollama 0.13.x 引入了多个全新模型家族。在 v0.13.0 中上线了 DeepSeek-OCR，专为高精度光学字符识别设计，支持通过图像路径直接提取文本或转换为 Markdown；同时发布了 Cogito-V2.1，一款高质量的开源指令调优生成模型。

v0.13.1 新增了面向边缘设备的轻量级模型 Ministral-3 和适用于企业级复杂任务的多模态混合专家模型 Mistral-Large-3。

到了 v0.13.3，又加入了 Devstral-Small-2（24B 参数，擅长代码库探索与多文件编辑）、rnj-1（8B 开源稠密模型，专精 STEM 与代码任务）以及多语言嵌入模型 nomic-embed-text-v2，显著扩展了 Ollama 在软件工程、科学计算和跨语言检索等领域的应用能力。

二、引入性能基准测试工具 Bench

从 v0.13.0 起，Ollama 官方提供了基于 Go 语言开发的 Bench 工具，用于量化评估模型性能。该工具支持文本和图像 Prompt、多模型并行测试、可配置生成参数（如 temperature、max tokens、seed），并能输出 CSV 或 benchstat 格式的详细指标，涵盖 prefill、generate、load 和 total 四类耗时，极大方便了开发者进行模型选型与优化。

三、增强工具调用与推理能力

v0.13.1 为 Cogito-V2.1 新增了完整的 工具调用（tool calling）支持 和 思维链（thinking）解析功能，使其能更可靠地与外部 API 或函数交互，并结构化输出推理过程。v0.13.3 进一步在工具调用响应中增加了 logprobs 输出，提升调试与可控性。

四、GPU 与系统兼容性大幅改进

整个 0.13.x 系列持续优化底层硬件支持。修复了多 GPU CUDA 环境下的设备识别问题、旧款 GPU 的 CUDA 计算能力（CC）检测失败、仅 CPU 系统误驱逐模型等关键缺陷。同时改进了 AMD GPU 的 VRAM 检测、Linux 下 Vulkan 库缺失问题，并增强了容器/cgroups 环境中的资源感知精度。Windows 用户还获得了对 PATH 中不兼容 DLL（如 ggml-base.dll）的自动检测与警告。

五、API 与嵌入接口优化

嵌入接口（/api/embed 和 /v1/embeddings）的截断逻辑被重构，移除了服务器端强制截断，改为更合理的运行时处理。v0.13.3 还调整了嵌入批量大小以提升吞吐，并新增了 /v1/responses API 接口。错误处理机制也得到加强，现在能正确解析非 JSON 格式的流式错误响应，避免显示模糊的 “Unmarshal: errors”。

六、底层引擎与架构扩展

Ollama 升级了 llama.cpp 至新版（17f7f4），提升 SSM 性能；重构了 RoPE（旋转位置编码）实现，增强长上下文稳定性；扩展 Gemma 3 架构以支持 rnj-1 模型；并为 Cogito-V2.1、Ministral-3 等新增专用解析器，确保其独特格式（如工具调用、思维链）被正确解析。

七、用户体验与开发体验提升

应用层修复了 macOS/Windows 上 ollama:// 自定义协议的打开逻辑；UI 方面解决了模型下载后能力未刷新、文本底部被截断等问题；命令行工具文档和选项说明也得到修正。此外，模板系统新增 yesterdayDate 辅助函数，方便动态生成提示词。

综上，Ollama 0.13.x 不仅大幅扩充了支持的模型生态，覆盖 OCR、代码智能体、多语言嵌入、边缘部署和企业级 MoE 等场景，还在性能评测、硬件兼容性、API 稳定性和开发者工具链方面实现了系统性增强，标志着其向更成熟、更通用的本地大模型运行平台迈进。

安装与升级方法请参见《最全的Ollama使用详解》。

[欢迎关注公众号，学习大模型开发与使用！(https://mp.weixin.qq.com/s/g9kjy5jLnD0JcWQHf7faow)