Proxy Lite：仅3B参数的开源视觉模型！快速实现网页自动化，支持在消费级GPU上运行Proxy Lite 是一款

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🚀 「网页操作解放双手！开源视觉模型3B参数逆袭：浏览器自动抓取+填表，低配GPU也能跑」大家好，我是蚝油菜花。你是否也经历过——

👉 凌晨3点还在写爬虫，反爬机制让你头秃
👉 重复点击/填表操作，浪费50%开发时间
👉 想用AI自动化，但动辄百亿参数模型根本跑不动...

今天带来的 Proxy Lite 彻底打破困局！这个仅3B参数的开源视觉语言模型，能像真人一样操作浏览器：

✅ 所见即所得：通过屏幕截图理解网页结构，精准定位按钮
✅ 智能决策链：观察→思考→动作三步闭环，处理验证码也不慌
✅ 低配神器：3090显卡就能流畅运行，成本直降90%

已有开发者用它自动处理电商订单、抓取科研论文数据，甚至搭建24小时在线的舆情监控系统——点击视频，看如何用5行代码开启你的自动化革命！

🚀 快速阅读

Proxy Lite 是一款开源的轻量级视觉语言模型，支持自动化网页任务。

核心功能：支持网页自动化操作、数据抓取、智能任务助手等，显著降低自动化成本。
技术原理：结合视觉感知和自然语言处理能力，通过“观察-思考-工具调用”的三步决策机制完成任务。

Proxy Lite 是什么

proxy-lite-cover

Proxy Lite 是一款开源的轻量级视觉语言模型（VLM），参数量为3B，支持自动化网页任务。它能够像人类一样操作浏览器，完成网页交互、数据抓取、表单填写等重复性工作，显著降低自动化成本。

Proxy Lite 采用“观察-思考-工具调用”的三步决策机制，具备强大的泛化能力和低资源占用，支持在消费级GPU上高效运行。它提供完整的浏览器交互框架，适合开发者快速部署和使用。

Proxy Lite 的主要功能

网页自动化操作：自动完成浏览器中的各种操作，如点击按钮、填写表单、滚动页面、处理弹窗等。
网页数据抓取：解析网页内容，提取结构化数据，支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
AI驱动的交互式Web代理：结合视觉感知能力，实现UI自动化测试和前端行为分析。
智能任务助手：帮助用户搜索、筛选和总结信息，提升网页导航体验。
低资源占用：仅3B参数，支持在消费级GPU上高效运行，无需依赖大型云计算资源。

Proxy Lite 的技术原理

proxy-lite-loop

视觉语言模型（VLM）：结合视觉感知（图像识别）和自然语言处理能力，理解和操作网页内容。
三步决策机制：
- 观察：评估上一操作是否成功，并获取当前网页的状态信息。
- 思考：根据当前页面状态进行推理，决定下一步操作。
- 工具调用：基于浏览器API进行交互，如点击、输入、滚动等。
浏览器交互框架：内置完整的浏览器交互控制框架，用Playwright库驱动浏览器操作，支持无头模式（Headless）和隐身模式（Stealth）以降低被反爬风险。
执行反馈机制：借鉴DeepSeek R1等模型的反馈机制，在任务执行中不断优化决策流程，提升执行准确性。

如何运行 Proxy Lite

1. 安装

克隆仓库：

git clone https://github.com/convergence-ai/proxy-lite.git

设置环境：

make proxy

或手动安装：

pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install

2. 使用

运行任务：

proxy "Find some markets near Kings Cross and tell me their ratings."

启动本地Web UI：

make app

3. 本地部署

使用vLLM部署本地端点：

vllm serve convergence-ai/proxy-lite-3b \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8008 \

设置API端点：

export PROXY_LITE_API_BASE=http://localhost:8008/v1

4. Python 集成

使用 Runner 类在Python中运行模型：

import asyncio
from proxy_lite import Runner, RunnerConfig

config = RunnerConfig.from_dict(
    {
        "environment": {
            "name": "webbrowser",
            "homepage": "https://www.google.com",
            "headless": True,
        },
        "solver": {
            "name": "simple",
            "agent": {
                "name": "proxy_lite",
                "client": {
                    "name": "convergence",
                    "model_id": "convergence-ai/proxy-lite-3b",
                    "api_base": "https://convergence-ai-demo-api.hf.space/v1",
                },
            },
        },
        "max_steps": 50,
        "action_timeout": 1800,
        "environment_timeout": 1800,
        "task_timeout": 18000,
        "logger_level": "DEBUG",
    },
)

proxy = Runner(config=config)
result = asyncio.run(
    proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")
)

资源

GitHub 仓库：github.com/convergence…

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦