朋友们!!今天挖到微软家的逆天黑科技🤯随手截图就能生成可执行指令,打工人的摸鱼神器来了!🌟【核心功能】你的截图现在会自己长脑子了!OmniParser V2.0就像个数字小员工👩💻,能把你截的屏幕转成带坐标+功能的智能地图🗺️ 手机电脑通吃,连按钮位置都能精准定位,底层打工人终于不用手动标注了!⚡【技术突破】定位精度暴涨60%的秘诀在这!训练集覆盖全网热门网页元素🌐,搭配A100显卡0.6秒/帧的超光速处理(比前男友回消息快100倍!)检测图标准得像开了透视挂👀🔗【多模支持】开发者狂喜时刻!支持OpenAI/DeepSeek等主流大模型🤝 还能在Win11虚拟机里玩自动化操作,自由搭配视觉模型就像DIY奶茶配方🧋(建议搭配Windows Copilot使用更香~)⚠️【使用须知】需要人工复查结果(AI偶尔也会犯困嘛😪)开源代码已同步在HuggingFace和GitHub,技术宅们快去调教你们的专属助手!实测场景👇▫️运营张姐:活动海报自动生成脚本▫️程序猿小王:APP界面智能测试方案▫️电商李总:竞品页面自动比价系统评论区蹲个课代表总结!↓ ↓ ↓#效率神器 #AI黑科技 #打工人必备#微软新科技 #自动化办公(记得关🐷解锁更多隐藏用法)
OmniParser 微软开源项目报告
1. 项目概述
OmniParser 是一个基于纯视觉的GUI代理屏幕解析工具,能够将界面截图解析为结构化元素,显著增强GPT-4V等视觉模型在界面区域的准确操作能力。
2. 主要功能
- 交互区域检测
- 图标功能描述
- 支持多种大语言模型(OpenAI, DeepSeek, Qwen, Anthropic等)
- 提供Gradio Web界面
- 支持Windows 11虚拟机操作
3. 代码结构分析
3.1 核心文件
gradio_demo.py
: 主程序入口,提供Web界面requirements.txt
: 项目依赖清单omnitool/
: 核心功能实现目录
3.2 主要模块
3.2.1 解析核心
- 使用YOLO模型进行图标检测(
weights/icon_detect/model.pt
) - 使用Florence2/BLIP2模型进行图标描述
- 支持EasyOCR和PaddleOCR两种OCR引擎
3.2.2 代理系统
- 位于
omnitool/gradio/agent/
- 实现多种大模型代理:
- Anthropic代理
- VLM代理
- 支持Groq、OpenAI等API
3.2.3 虚拟机管理
- 位于
omnitool/omnibox/
- 提供Windows 11虚拟机:
- 自动化安装脚本
- 管理工具(PowerShell)
- 远程控制服务
4. 依赖关系
项目主要依赖:
- 深度学习框架: torch, torchvision, transformers
- 计算机视觉: ultralytics, opencv, paddleocr
- 大模型接口: openai, anthropic, dashscope
- GUI相关: gradio, pyautogui
5. 运行方式
- 安装依赖:
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
-
下载模型权重到
weights/
目录 -
启动Gradio界面:
python gradio_demo.py
6. 项目特点
- 模块化设计,易于扩展新模型
- 支持多种OCR引擎
- 提供完整的虚拟机操作方案
- 详细的错误处理和日志记录
7. 使用DeepSeek模型进行自然语言操作
7.1 配置DeepSeek模型
- 获取Groq API Key
- 在代码中指定模型为"omniparser + R1"
- 模型将自动使用"deepseek-r1-distill-llama-70b"
7.2 启动和配置
- 启动Gradio界面:
python omnitool/gradio/app.py \
--windows_host_url localhost:8006 \
--omniparser_server_url localhost:8000
- 在Web界面中:
- 模型选择: 下拉选择"omniparser + R1"
- API Key: 输入Groq API Key
- 确保Windows主机和OmniParser服务已启动
7.3 自然语言操作流程
- 用户输入自然语言指令
- VLMAgent解析指令并生成JSON操作指令,格式示例:
{
"Reasoning": "分析当前屏幕和任务目标",
"Next Action": "操作类型(left_click/right_click/type等)",
"Box ID": "要操作的区域ID",
"value": "输入文本(仅type操作需要)"
}
- 系统执行具体操作:
- 鼠标移动和点击
- 键盘输入
- 页面滚动等
7.3 示例场景
- 搜索商品:
{
"Reasoning": "需要在亚马逊搜索框中输入'手机'",
"Next Action": "type",
"Box ID": 123,
"value": "手机"
}
- 点击按钮:
{
"Reasoning": "需要点击登录按钮",
"Next Action": "left_click",
"Box ID": 456
}
扫码获取众多AI大模型本地一键启动源码