截图秒变智能指令!微软黑科技让效率暴涨300%的真相在这

26 阅读4分钟

朋友们!!今天挖到微软家的逆天黑科技🤯随手截图就能生成可执行指令,打工人的摸鱼神器来了!🌟【核心功能】你的截图现在会自己长脑子了!OmniParser V2.0就像个数字小员工👩💻,能把你截的屏幕转成带坐标+功能的智能地图🗺️ 手机电脑通吃,连按钮位置都能精准定位,底层打工人终于不用手动标注了!⚡【技术突破】定位精度暴涨60%的秘诀在这!训练集覆盖全网热门网页元素🌐,搭配A100显卡0.6秒/帧的超光速处理(比前男友回消息快100倍!)检测图标准得像开了透视挂👀🔗【多模支持】开发者狂喜时刻!支持OpenAI/DeepSeek等主流大模型🤝 还能在Win11虚拟机里玩自动化操作,自由搭配视觉模型就像DIY奶茶配方🧋(建议搭配Windows Copilot使用更香~)⚠️【使用须知】需要人工复查结果(AI偶尔也会犯困嘛😪)开源代码已同步在HuggingFace和GitHub,技术宅们快去调教你们的专属助手!实测场景👇▫️运营张姐:活动海报自动生成脚本▫️程序猿小王:APP界面智能测试方案▫️电商李总:竞品页面自动比价系统评论区蹲个课代表总结!↓ ↓ ↓#效率神器 #AI黑科技 #打工人必备#微软新科技 #自动化办公(记得关🐷解锁更多隐藏用法)

OmniParser 微软开源项目报告

1. 项目概述

OmniParser 是一个基于纯视觉的GUI代理屏幕解析工具,能够将界面截图解析为结构化元素,显著增强GPT-4V等视觉模型在界面区域的准确操作能力。

2. 主要功能

  • 交互区域检测
  • 图标功能描述
  • 支持多种大语言模型(OpenAI, DeepSeek, Qwen, Anthropic等)
  • 提供Gradio Web界面
  • 支持Windows 11虚拟机操作

3. 代码结构分析

3.1 核心文件

  • gradio_demo.py: 主程序入口,提供Web界面
  • requirements.txt: 项目依赖清单
  • omnitool/: 核心功能实现目录

3.2 主要模块

3.2.1 解析核心
  • 使用YOLO模型进行图标检测(weights/icon_detect/model.pt)
  • 使用Florence2/BLIP2模型进行图标描述
  • 支持EasyOCR和PaddleOCR两种OCR引擎
3.2.2 代理系统
  • 位于omnitool/gradio/agent/
  • 实现多种大模型代理:
    • Anthropic代理
    • VLM代理
    • 支持Groq、OpenAI等API
3.2.3 虚拟机管理
  • 位于omnitool/omnibox/
  • 提供Windows 11虚拟机:
    • 自动化安装脚本
    • 管理工具(PowerShell)
    • 远程控制服务

4. 依赖关系

项目主要依赖:

  • 深度学习框架: torch, torchvision, transformers
  • 计算机视觉: ultralytics, opencv, paddleocr
  • 大模型接口: openai, anthropic, dashscope
  • GUI相关: gradio, pyautogui

5. 运行方式

  1. 安装依赖:
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
  1. 下载模型权重到weights/目录

  2. 启动Gradio界面:

python gradio_demo.py

6. 项目特点

  • 模块化设计,易于扩展新模型
  • 支持多种OCR引擎
  • 提供完整的虚拟机操作方案
  • 详细的错误处理和日志记录

7. 使用DeepSeek模型进行自然语言操作

7.1 配置DeepSeek模型

  1. 获取Groq API Key
  2. 在代码中指定模型为"omniparser + R1"
  3. 模型将自动使用"deepseek-r1-distill-llama-70b"

7.2 启动和配置

  1. 启动Gradio界面:
python omnitool/gradio/app.py \
  --windows_host_url localhost:8006 \
  --omniparser_server_url localhost:8000
  1. 在Web界面中:
    • 模型选择: 下拉选择"omniparser + R1"
    • API Key: 输入Groq API Key
    • 确保Windows主机和OmniParser服务已启动

7.3 自然语言操作流程

  1. 用户输入自然语言指令
  2. VLMAgent解析指令并生成JSON操作指令,格式示例:
{
    "Reasoning": "分析当前屏幕和任务目标",
    "Next Action": "操作类型(left_click/right_click/type等)",
    "Box ID": "要操作的区域ID",
    "value": "输入文本(仅type操作需要)"
}
  1. 系统执行具体操作:
    • 鼠标移动和点击
    • 键盘输入
    • 页面滚动等

7.3 示例场景

  1. 搜索商品:
{
    "Reasoning": "需要在亚马逊搜索框中输入'手机'",
    "Next Action": "type",
    "Box ID": 123,
    "value": "手机"
}
  1. 点击按钮:
{
    "Reasoning": "需要点击登录按钮",
    "Next Action": "left_click", 
    "Box ID": 456
}

扫码获取众多AI大模型本地一键启动源码

亦为.PNG