dayflow 识别图至少使用 7b

45 阅读3分钟

本地具备视觉能力的模型用于任务追踪的性能报告(MacBook M1/32GB)

本报告总结了两款 Qwen2.5VL 模型在本地任务追踪(通过 Ollama 运行)中的性能差异,指出了更高参数模型的关键改进之处,提供了更换本地模型的步骤,并提出了有待进一步探索的方向。

一、推荐模型(qwen2.5vl:3b)存在的核心问题

最初推荐的模型qwen2.5vl:3b在可靠性和准确性方面存在明显局限,主要表现为:

  • 幻觉现象:该问题在两个关键场景中均有出现:
    • 任务追踪:编造不存在的任务。
    • 应用使用识别:提及未激活或未打开的应用。
  • 潜在影响因素:使用更大尺寸的屏幕显示器可能导致文本辨识度降低,这或许会加剧识别错误(但此因素是否为根本原因尚未确认)。
  • 总结质量:生成的总结 “较为笼统”,准确率仅约 75%。
  • 未验证指标:内存占用、Ollama 与 Dayflow 的 12 小时功耗影响均有待确认(TBC,To Be Confirmed)。

二、qwen2.5vl:7b 模型的性能改进

在 32GB 内存的 M1 MacBook 上,通过 Ollama 运行qwen2.5vl:7b以替代 qwen2.5vl:3b 后,模型在可靠性和准确性上实现了显著提升。以下是两款模型的直接性能对比:

指标qwen2.5vl:3b(通过 Ollama 运行)qwen2.5vl:7b(通过 Ollama 运行)
任务追踪可靠性易出现幻觉现象(编造任务)可靠性显著提升
应用提及准确性提及未激活 / 未打开的应用可准确识别正在使用的应用
文本识别能力未明确说明(隐含表现不佳)识别准确(可正确识别品牌、网站名称、任务内容)
总结质量笼统,准确率约 75%内容详细,准确率高
内存占用待确认(TBC)6.56 GB
12 小时功耗影响(Ollama)待确认(TBC)25.13
12 小时功耗影响(Dayflow)待确认(TBC)4.83

结论:若内存充足(可用内存≥6.56 GB),qwen2.5vl:7b 是本地任务追踪的更优选择。

三、如何更换本地模型

若需将本地模型从 qwen2.5vl:3b 更换为其他模型(如 qwen2.5vl:7b),可按照以下步骤操作:

  1. 重置模型管理工具(如 Ollama、LM Studio)的引导流程。
  1. 通过该工具下载目标模型(如 qwen2.5vl:7b)。
  1. 进入工具的设置菜单,选择 “其他” 选项,将下载好的模型设为活跃的目标模型。
  1. 如需更详细的操作说明,可参考此处链接的指南:#38

四、建议进一步探索的方向

为更全面地了解本地具备视觉能力模型的性能,建议开展以下对比与数据收集工作:

  • 模型可靠性:在 Ollama 和 LM Studio 两个平台上,测试 Qwen2.5VL 系列之外的其他具备视觉能力的模型,找出任务追踪场景下最可靠的模型。
  • 能效对比:直接对比 Ollama 与 LM Studio 的相对功耗(这对 MacBook 等电池供电设备尤为重要)。
  • 社区反馈:鼓励用户分享不同模型(如准确性、内存占用、功耗)和不同平台(Ollama vs. LM Studio)的使用体验,以构建更全面的性能数据集。