DeepSeek 没有视觉能力?我写了一个 MCP Server,让它在 Claude Code/Codex/Cursor 里「看见」截图
一句话解决:截图 → 剪贴板 → 通义千问VL → DeepSeek 也能「看见」。
起因
我一直在用 DeepSeek V4 的 API 接入 Claude Code 写代码——速度快、便宜、中文好。但有一个致命问题:
DeepSeek 的 API 没有视觉能力。
每次我想让 AI 帮我看一张截图上的报错信息,它的回复永远是这样:
"我注意到你发了一个文件路径,但我无法查看图片内容。请把错误信息复制成文字发给我。"
现有方案的问题
我搜了一圈 GitHub,发现有人在解决这个问题:
| 工具 | 方式 | 问题 |
|---|---|---|
| clipboard-vision-mcp | MCP + Groq 视觉模型 | Groq API 需要翻墙 |
| ErlichLiu/deepseek-vision | HTTP 代理 | 需要 Docker,太重了 |
没有一个方案能同时满足:国内直连 + 免费 + 轻量 + MCP 原生。
于是我决定自己写一个。
deepseek-eyes 做了什么
核心思路极其简单:
你截了一张图(Win+Shift+S)
│
▼
┌─────────────────┐
│ deepseek-eyes │ ← MCP Server (Python, 零依赖)
│ 读取剪贴板图片 │
│ → 发给通义千问VL │ ← ModelScope API (国内直连, 免费)
│ → 返回文字描述 │
└────────┬────────┘
▼
DeepSeek: "这是一个登录页面,有用户名和密码两个输入框,
下方有一个蓝色的「登录」按钮,右上角显示版本号 v2.3.1"
DeepSeek 不需要「看见」图片。 它只需要看见通义千问VL 返回的文字描述,就能正常理解和推理。
3 步安装
1. 克隆 + 安装
git clone https://github.com/290298661-pixel/deepseek-eyes.git
cd deepseek-eyes
python -m venv .venv
.venv\Scripts\activate # Windows
pip install -e .
2. 获取免费 API Key
打开 modelscope.cn/my/myaccess… → 登录 → 绑定阿里云账号 → 新建令牌 → 复制。
⚠️ 令牌格式为
ms-xxxxxxxx,使用时去掉ms-前缀!免费额度:每天 2000 次,单模型 500 次,完全够用。
3. 配置 MCP
在 Claude Code 的 .mcp.json 中添加:
{
"mcpServers": {
"deepseek-eyes": {
"command": "D:\\GitHub\\deepseek-eyes\\.venv\\Scripts\\python.exe",
"args": ["-m", "deepseek_eyes"],
"env": {
"MODELSCOPE_API_KEY": "你的Key(去掉ms-前缀)"
}
}
}
}
重启 Claude Code。 搞定。
使用效果
截图(Win+Shift+S 框选你要的内容),然后在聊天框输入:
"看看这是什么"
DeepSeek 会自动调用 analyze_clipboard MCP 工具,读剪贴板,返回图片描述。
支持 12 种 MCP 工具:分析图片、OCR 提取文字、诊断错误截图、描述 UI 布局、解读流程图、分析数据图表、从代码截图中提取代码——每种都有剪贴板版和文件路径版两种调用方式。
技术实现
技术栈:Python 3.10+ + MCP 协议 + ModelScope 通义千问VL
为什么选择通义千问VL:
- ✅ 国内直连,零翻墙
- ✅ 每天 500 次免费调用(ModelScope 魔搭社区)
- ✅ 原生中文训练,对中文截图理解准确
- ✅ 完全兼容 OpenAI SDK,只需改
base_url
和原版 clipboard-vision-mcp 的核心区别就是这一行:
# 原版 — Groq,需翻墙
self.client = AsyncGroq(api_key=api_key)
# deepseek-eyes — 通义千问VL,国内直连
self.client = AsyncOpenAI(
api_key=api_key,
base_url="https://api-inference.modelscope.cn/v1"
)
Groff → OpenAI SDK,一行改完,剩下的就是全面的中文化和 Windows 剪贴板编码兼容处理。
写在最后
如果你也在用 DeepSeek API 接入 Claude Code / Cursor / Opencode,试试 deepseek-eyes —— 让你的 AI 真正「看见」你的屏幕。
如果觉得有用,欢迎给个 Star ⭐️: github.com/290298661-p…
有问题可以在 Issue 区提,PR 也欢迎。
Tags: Claude Code · DeepSeek · MCP · 开源 · 视觉能力