Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行

181 阅读4分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「网页操作解放双手!开源视觉模型3B参数逆袭:浏览器自动抓取+填表,低配GPU也能跑」 大家好,我是蚝油菜花。你是否也经历过——

  • 👉 凌晨3点还在写爬虫,反爬机制让你头秃
  • 👉 重复点击/填表操作,浪费50%开发时间
  • 👉 想用AI自动化,但动辄百亿参数模型根本跑不动...

今天带来的 Proxy Lite 彻底打破困局!这个仅3B参数的开源视觉语言模型,能像真人一样操作浏览器:

  • ✅ 所见即所得:通过屏幕截图理解网页结构,精准定位按钮
  • ✅ 智能决策链:观察→思考→动作三步闭环,处理验证码也不慌
  • ✅ 低配神器:3090显卡就能流畅运行,成本直降90%

已有开发者用它自动处理电商订单、抓取科研论文数据,甚至搭建24小时在线的舆情监控系统——点击视频,看如何用5行代码开启你的自动化革命!

🚀 快速阅读

Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务。

  1. 核心功能:支持网页自动化操作、数据抓取、智能任务助手等,显著降低自动化成本。
  2. 技术原理:结合视觉感知和自然语言处理能力,通过“观察-思考-工具调用”的三步决策机制完成任务。

Proxy Lite 是什么

proxy-lite-cover

Proxy Lite 是一款开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。它能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

Proxy Lite 采用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。它提供完整的浏览器交互框架,适合开发者快速部署和使用。

Proxy Lite 的主要功能

  • 网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。
  • 网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
  • AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。
  • 智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。
  • 低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。

Proxy Lite 的技术原理

proxy-lite-loop

  • 视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。
  • 三步决策机制
    • 观察:评估上一操作是否成功,并获取当前网页的状态信息。
    • 思考:根据当前页面状态进行推理,决定下一步操作。
    • 工具调用:基于浏览器API进行交互,如点击、输入、滚动等。
  • 浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。
  • 执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。

如何运行 Proxy Lite

1. 安装

克隆仓库:

git clone https://github.com/convergence-ai/proxy-lite.git

设置环境:

make proxy

或手动安装:

pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install

2. 使用

运行任务:

proxy "Find some markets near Kings Cross and tell me their ratings."

启动本地Web UI:

make app

3. 本地部署

使用vLLM部署本地端点:

vllm serve convergence-ai/proxy-lite-3b \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8008 \

设置API端点:

export PROXY_LITE_API_BASE=http://localhost:8008/v1

4. Python 集成

使用 Runner 类在Python中运行模型:

import asyncio
from proxy_lite import Runner, RunnerConfig

config = RunnerConfig.from_dict(
    {
        "environment": {
            "name": "webbrowser",
            "homepage": "https://www.google.com",
            "headless": True,
        },
        "solver": {
            "name": "simple",
            "agent": {
                "name": "proxy_lite",
                "client": {
                    "name": "convergence",
                    "model_id": "convergence-ai/proxy-lite-3b",
                    "api_base": "https://convergence-ai-demo-api.hf.space/v1",
                },
            },
        },
        "max_steps": 50,
        "action_timeout": 1800,
        "environment_timeout": 1800,
        "task_timeout": 18000,
        "logger_level": "DEBUG",
    },
)

proxy = Runner(config=config)
result = asyncio.run(
    proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")
)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦