dayflow 识别图至少使用 7b

2025-10-07 76 阅读3分钟

本地具备视觉能力的模型用于任务追踪的性能报告（MacBook M1/32GB）

本报告总结了两款 Qwen2.5VL 模型在本地任务追踪（通过 Ollama 运行）中的性能差异，指出了更高参数模型的关键改进之处，提供了更换本地模型的步骤，并提出了有待进一步探索的方向。

一、推荐模型（qwen2.5vl:3b）存在的核心问题

最初推荐的模型qwen2.5vl:3b在可靠性和准确性方面存在明显局限，主要表现为：

幻觉现象：该问题在两个关键场景中均有出现：

- 任务追踪：编造不存在的任务。

- 应用使用识别：提及未激活或未打开的应用。

潜在影响因素：使用更大尺寸的屏幕显示器可能导致文本辨识度降低，这或许会加剧识别错误（但此因素是否为根本原因尚未确认）。

总结质量：生成的总结 “较为笼统”，准确率仅约 75%。

未验证指标：内存占用、Ollama 与 Dayflow 的 12 小时功耗影响均有待确认（TBC，To Be Confirmed）。

二、qwen2.5vl:7b 模型的性能改进

在 32GB 内存的 M1 MacBook 上，通过 Ollama 运行qwen2.5vl:7b以替代 qwen2.5vl:3b 后，模型在可靠性和准确性上实现了显著提升。以下是两款模型的直接性能对比：

指标	qwen2.5vl:3b（通过 Ollama 运行）	qwen2.5vl:7b（通过 Ollama 运行）
任务追踪可靠性	易出现幻觉现象（编造任务）	可靠性显著提升
应用提及准确性	提及未激活 / 未打开的应用	可准确识别正在使用的应用
文本识别能力	未明确说明（隐含表现不佳）	识别准确（可正确识别品牌、网站名称、任务内容）
总结质量	笼统，准确率约 75%	内容详细，准确率高
内存占用	待确认（TBC）	6.56 GB
12 小时功耗影响（Ollama）	待确认（TBC）	25.13
12 小时功耗影响（Dayflow）	待确认（TBC）	4.83

结论：若内存充足（可用内存≥6.56 GB），qwen2.5vl:7b 是本地任务追踪的更优选择。

三、如何更换本地模型

若需将本地模型从 qwen2.5vl:3b 更换为其他模型（如 qwen2.5vl:7b），可按照以下步骤操作：

重置模型管理工具（如 Ollama、LM Studio）的引导流程。

通过该工具下载目标模型（如 qwen2.5vl:7b）。

进入工具的设置菜单，选择 “其他” 选项，将下载好的模型设为活跃的目标模型。

如需更详细的操作说明，可参考此处链接的指南：#38

四、建议进一步探索的方向

为更全面地了解本地具备视觉能力模型的性能，建议开展以下对比与数据收集工作：

模型可靠性：在 Ollama 和 LM Studio 两个平台上，测试 Qwen2.5VL 系列之外的其他具备视觉能力的模型，找出任务追踪场景下最可靠的模型。

能效对比：直接对比 Ollama 与 LM Studio 的相对功耗（这对 MacBook 等电池供电设备尤为重要）。

社区反馈：鼓励用户分享不同模型（如准确性、内存占用、功耗）和不同平台（Ollama vs. LM Studio）的使用体验，以构建更全面的性能数据集。