DeepSeek 没有视觉能力?我写了一个 MCP Server,让它在 Claude Code/Codex/Cursor 里「看见」截图

71 阅读3分钟

DeepSeek 没有视觉能力?我写了一个 MCP Server,让它在 Claude Code/Codex/Cursor 里「看见」截图

一句话解决:截图 → 剪贴板 → 通义千问VL → DeepSeek 也能「看见」。


项目地址:github.com/290298661-p…

起因

我一直在用 DeepSeek V4 的 API 接入 Claude Code 写代码——速度快、便宜、中文好。但有一个致命问题:

DeepSeek 的 API 没有视觉能力。

每次我想让 AI 帮我看一张截图上的报错信息,它的回复永远是这样:

"我注意到你发了一个文件路径,但我无法查看图片内容。请把错误信息复制成文字发给我。"


现有方案的问题

我搜了一圈 GitHub,发现有人在解决这个问题:

工具方式问题
clipboard-vision-mcpMCP + Groq 视觉模型Groq API 需要翻墙
ErlichLiu/deepseek-visionHTTP 代理需要 Docker,太重了

没有一个方案能同时满足:国内直连 + 免费 + 轻量 + MCP 原生。

于是我决定自己写一个。


deepseek-eyes 做了什么

核心思路极其简单:

你截了一张图(Win+Shift+S)
        │
        ▼
  ┌─────────────────┐
  │ deepseek-eyes    │  ← MCP Server (Python, 零依赖)
  │ 读取剪贴板图片    │
  │ → 发给通义千问VL  │  ← ModelScope API (国内直连, 免费)
  │ → 返回文字描述   │
  └────────┬────────┘
           ▼
  DeepSeek: "这是一个登录页面,有用户名和密码两个输入框,
             下方有一个蓝色的「登录」按钮,右上角显示版本号 v2.3.1"

DeepSeek 不需要「看见」图片。 它只需要看见通义千问VL 返回的文字描述,就能正常理解和推理。


3 步安装

1. 克隆 + 安装

git clone https://github.com/290298661-pixel/deepseek-eyes.git
cd deepseek-eyes
python -m venv .venv
.venv\Scripts\activate    # Windows
pip install -e .

2. 获取免费 API Key

打开 modelscope.cn/my/myaccess… → 登录 → 绑定阿里云账号 → 新建令牌 → 复制。

⚠️ 令牌格式为 ms-xxxxxxxx,使用时去掉 ms- 前缀!免费额度:每天 2000 次,单模型 500 次,完全够用。

3. 配置 MCP

在 Claude Code 的 .mcp.json 中添加:

{
  "mcpServers": {
    "deepseek-eyes": {
      "command": "D:\\GitHub\\deepseek-eyes\\.venv\\Scripts\\python.exe",
      "args": ["-m", "deepseek_eyes"],
      "env": {
        "MODELSCOPE_API_KEY": "你的Key(去掉ms-前缀)"
      }
    }
  }
}

重启 Claude Code。 搞定。


使用效果

截图(Win+Shift+S 框选你要的内容),然后在聊天框输入:

"看看这是什么"

DeepSeek 会自动调用 analyze_clipboard MCP 工具,读剪贴板,返回图片描述。

支持 12 种 MCP 工具:分析图片、OCR 提取文字、诊断错误截图、描述 UI 布局、解读流程图、分析数据图表、从代码截图中提取代码——每种都有剪贴板版和文件路径版两种调用方式。


技术实现

项目地址:github.com/290298661-p…

技术栈:Python 3.10+ + MCP 协议 + ModelScope 通义千问VL

为什么选择通义千问VL:

  • ✅ 国内直连,零翻墙
  • ✅ 每天 500 次免费调用(ModelScope 魔搭社区)
  • ✅ 原生中文训练,对中文截图理解准确
  • ✅ 完全兼容 OpenAI SDK,只需改 base_url

和原版 clipboard-vision-mcp 的核心区别就是这一行:

# 原版 — Groq,需翻墙
self.client = AsyncGroq(api_key=api_key)

# deepseek-eyes — 通义千问VL,国内直连
self.client = AsyncOpenAI(
    api_key=api_key,
    base_url="https://api-inference.modelscope.cn/v1"
)

Groff → OpenAI SDK,一行改完,剩下的就是全面的中文化和 Windows 剪贴板编码兼容处理。


写在最后

如果你也在用 DeepSeek API 接入 Claude Code / Cursor / Opencode,试试 deepseek-eyes —— 让你的 AI 真正「看见」你的屏幕。

如果觉得有用,欢迎给个 Star ⭐️: github.com/290298661-p…

有问题可以在 Issue 区提,PR 也欢迎。


Tags: Claude Code · DeepSeek · MCP · 开源 · 视觉能力