本地具备视觉能力的模型用于任务追踪的性能报告(MacBook M1/32GB)
本报告总结了两款 Qwen2.5VL 模型在本地任务追踪(通过 Ollama 运行)中的性能差异,指出了更高参数模型的关键改进之处,提供了更换本地模型的步骤,并提出了有待进一步探索的方向。
一、推荐模型(qwen2.5vl:3b)存在的核心问题
最初推荐的模型qwen2.5vl:3b在可靠性和准确性方面存在明显局限,主要表现为:
- 幻觉现象:该问题在两个关键场景中均有出现:
-
- 任务追踪:编造不存在的任务。
-
- 应用使用识别:提及未激活或未打开的应用。
- 潜在影响因素:使用更大尺寸的屏幕显示器可能导致文本辨识度降低,这或许会加剧识别错误(但此因素是否为根本原因尚未确认)。
- 总结质量:生成的总结 “较为笼统”,准确率仅约 75%。
- 未验证指标:内存占用、Ollama 与 Dayflow 的 12 小时功耗影响均有待确认(TBC,To Be Confirmed)。
二、qwen2.5vl:7b 模型的性能改进
在 32GB 内存的 M1 MacBook 上,通过 Ollama 运行qwen2.5vl:7b以替代 qwen2.5vl:3b 后,模型在可靠性和准确性上实现了显著提升。以下是两款模型的直接性能对比:
| 指标 | qwen2.5vl:3b(通过 Ollama 运行) | qwen2.5vl:7b(通过 Ollama 运行) |
|---|---|---|
| 任务追踪可靠性 | 易出现幻觉现象(编造任务) | 可靠性显著提升 |
| 应用提及准确性 | 提及未激活 / 未打开的应用 | 可准确识别正在使用的应用 |
| 文本识别能力 | 未明确说明(隐含表现不佳) | 识别准确(可正确识别品牌、网站名称、任务内容) |
| 总结质量 | 笼统,准确率约 75% | 内容详细,准确率高 |
| 内存占用 | 待确认(TBC) | 6.56 GB |
| 12 小时功耗影响(Ollama) | 待确认(TBC) | 25.13 |
| 12 小时功耗影响(Dayflow) | 待确认(TBC) | 4.83 |
结论:若内存充足(可用内存≥6.56 GB),qwen2.5vl:7b 是本地任务追踪的更优选择。
三、如何更换本地模型
若需将本地模型从 qwen2.5vl:3b 更换为其他模型(如 qwen2.5vl:7b),可按照以下步骤操作:
- 重置模型管理工具(如 Ollama、LM Studio)的引导流程。
- 通过该工具下载目标模型(如 qwen2.5vl:7b)。
- 进入工具的设置菜单,选择 “其他” 选项,将下载好的模型设为活跃的目标模型。
- 如需更详细的操作说明,可参考此处链接的指南:#38
四、建议进一步探索的方向
为更全面地了解本地具备视觉能力模型的性能,建议开展以下对比与数据收集工作:
- 模型可靠性:在 Ollama 和 LM Studio 两个平台上,测试 Qwen2.5VL 系列之外的其他具备视觉能力的模型,找出任务追踪场景下最可靠的模型。
- 能效对比:直接对比 Ollama 与 LM Studio 的相对功耗(这对 MacBook 等电池供电设备尤为重要)。
- 社区反馈:鼓励用户分享不同模型(如准确性、内存占用、功耗)和不同平台(Ollama vs. LM Studio)的使用体验,以构建更全面的性能数据集。