Ollama 0.13.x发布:OCR、代码智能体、多模态全拉满,本地AI再进化

134 阅读3分钟

Ollama 在 2025 年 11 月至 12 月期间连续发布了 v0.13.0、v0.13.1、v0.13.2 和 v0.13.3 四个版本,带来了大量新特性、模型支持、性能优化和系统兼容性改进。

一、新增多款前沿模型支持

Ollama 0.13.x 引入了多个全新模型家族。在 v0.13.0 中上线了 DeepSeek-OCR,专为高精度光学字符识别设计,支持通过图像路径直接提取文本或转换为 Markdown;同时发布了 Cogito-V2.1,一款高质量的开源指令调优生成模型。

v0.13.1 新增了面向边缘设备的轻量级模型 Ministral-3 和适用于企业级复杂任务的多模态混合专家模型 Mistral-Large-3

到了 v0.13.3,又加入了 Devstral-Small-2(24B 参数,擅长代码库探索与多文件编辑)、rnj-1(8B 开源稠密模型,专精 STEM 与代码任务)以及多语言嵌入模型 nomic-embed-text-v2,显著扩展了 Ollama 在软件工程、科学计算和跨语言检索等领域的应用能力。

二、引入性能基准测试工具 Bench

从 v0.13.0 起,Ollama 官方提供了基于 Go 语言开发的 Bench 工具,用于量化评估模型性能。该工具支持文本和图像 Prompt、多模型并行测试、可配置生成参数(如 temperature、max tokens、seed),并能输出 CSV 或 benchstat 格式的详细指标,涵盖 prefill、generate、load 和 total 四类耗时,极大方便了开发者进行模型选型与优化。

三、增强工具调用与推理能力

v0.13.1 为 Cogito-V2.1 新增了完整的 工具调用(tool calling)支持 和 思维链(thinking)解析功能,使其能更可靠地与外部 API 或函数交互,并结构化输出推理过程。v0.13.3 进一步在工具调用响应中增加了 logprobs 输出,提升调试与可控性。

四、GPU 与系统兼容性大幅改进

整个 0.13.x 系列持续优化底层硬件支持。修复了多 GPU CUDA 环境下的设备识别问题、旧款 GPU 的 CUDA 计算能力(CC)检测失败、仅 CPU 系统误驱逐模型等关键缺陷。同时改进了 AMD GPU 的 VRAM 检测、Linux 下 Vulkan 库缺失问题,并增强了容器/cgroups 环境中的资源感知精度。Windows 用户还获得了对 PATH 中不兼容 DLL(如 ggml-base.dll)的自动检测与警告。

五、API 与嵌入接口优化

嵌入接口(/api/embed 和 /v1/embeddings)的截断逻辑被重构,移除了服务器端强制截断,改为更合理的运行时处理。v0.13.3 还调整了嵌入批量大小以提升吞吐,并新增了  /v1/responses API 接口。错误处理机制也得到加强,现在能正确解析非 JSON 格式的流式错误响应,避免显示模糊的 “Unmarshal: errors”。

六、底层引擎与架构扩展

Ollama 升级了 llama.cpp 至新版(17f7f4),提升 SSM 性能;重构了 RoPE(旋转位置编码)实现,增强长上下文稳定性;扩展 Gemma 3 架构以支持 rnj-1 模型;并为 Cogito-V2.1、Ministral-3 等新增专用解析器,确保其独特格式(如工具调用、思维链)被正确解析。

七、用户体验与开发体验提升

应用层修复了 macOS/Windows 上 ollama:// 自定义协议的打开逻辑;UI 方面解决了模型下载后能力未刷新、文本底部被截断等问题;命令行工具文档和选项说明也得到修正。此外,模板系统新增 yesterdayDate 辅助函数,方便动态生成提示词。

综上,Ollama 0.13.x 不仅大幅扩充了支持的模型生态,覆盖 OCR、代码智能体、多语言嵌入、边缘部署和企业级 MoE 等场景,还在性能评测、硬件兼容性、API 稳定性和开发者工具链方面实现了系统性增强,标志着其向更成熟、更通用的本地大模型运行平台迈进。

安装与升级方法请参见《最全的Ollama使用详解》。

image.png

[欢迎关注公众号,学习大模型开发与使用!(https://mp.weixin.qq.com/s/g9kjy5jLnD0JcWQHf7faow)