揭秘 AI 大脑!VisioBot 如何“思考”并执行测试任务(下篇)

4 阅读3分钟

揭秘 AI 大脑!VisioBot 如何“思考”并执行测试任务(下篇)

在上篇文章中,我们带大家初探了 VisioBot 的强大能力 —— 用自然语言驱动 UI 自动化。
很多读者在后台留言:它看起来很酷,但它到底是怎么工作的?
今天,我们就来扒开 VisioBot 的外衣,看看它的“大脑”里究竟装了什么黑科技。


🧠 核心揭秘:三层任务拆分架构

VisioBot 之所以能像人一样“思考”,归功于其独特的 三层任务拆分架构。这不是简单的 if-else,而是一个完整的 AI Agent 思维链。

第一层:任务规划 (Task Planning)

当你输入“在QQ中给张三发送文件”时,最顶层的 Agent 会首先进行全局规划。
它会思考:

  1. 我现在在哪个 App?如果不在 QQ,需要先启动 QQ。
  2. 这是一个多步骤任务,需要先找到人,再发文件。
    输出:生成一个宏观的任务流。

第二层:步骤规划 (Step Planning)

进入具体页面后(例如 QQ 首页),第二层 Agent 介入。它会分析当前屏幕:

  • “我看到了消息列表,但我没看到张三。”
  • 决策:我需要点击搜索框,或者向下滑动寻找。
    这一层负责将宏观任务转化为当前页面下的具体意图。

第三层:操作执行 (Action Execution)

这是最底层的“执行者”。当决策层决定“点击搜索框”时,执行层会:

  • 精确计算搜索框的坐标 (x, y)。
  • 调用 ADB 指令执行点击。
  • 验证点击后的屏幕变化,确认操作是否成功。

🛠️ 硬核技术栈:Go + Vue3 + LangChain

为了支撑这套复杂的 AI 逻辑,我们在技术选型上不仅追求“智能”,更追求“性能”。

  • 后端(Go 1.23+)
    选用 Go 语言是因为其极高的并发处理能力。当同时控制 10 台设备进行 AI 推理时,Go 的协程(Goroutine)机制能确保系统依然丝般顺滑,且资源占用极低。
  • 前端(Vue 3)
    现代化的响应式界面。不仅能管理任务,还能通过 WebSocket 实时通过 Web 页面预览手机屏幕,甚至直接在网页上远程操控真机,所见即所得。
  • AI 编排(LangChain)
    作为大模型的“胶水”,LangChain 帮助我们将 prompt(提示词)工程化,管理上下文记忆,让 VisioBot 不会“聊着聊着就忘了刚才在干嘛”。

🚀 实战演练:一个真实的决策瞬间

让我们看一个 VisioBot 运行时的日志片段:

[Observation] 当前页面包含文本: "微信", "通讯录", "发现", "我"
[Thought] 用户目标是“发朋友圈”。当前在主页,我需要先点击“发现”标签页。
[Action] Click(text="发现")
...
[Observation] 进入“发现”页,看到“朋友圈”入口。
[Thought] 找到了,下一步点击“朋友圈”。
[Action] Click(text="朋友圈")

看到没?它不是在死板地执行坐标点击,而是在实时观察、实时思考。如果页面加载慢了,它会等待;如果弹出了广告,它会尝试关闭。这才是真正的 智能自动化

🔮 未来已来

VisioBot 目前已经支持了 Android 平台,未来我们将计划:

  1. iOS 支持:让苹果设备也能享受 AI 自动化的红利。
  2. 自我进化:通过强化学习,让 Agent 在失败中吸取教训,越用越聪明。

🌟 关注我们,一起探索 AI 测试的边界

UI 自动化测试的革命已经开始,而 VisioBot 只是一个起点。如果你对 AI Agent自动化测试 或 Go 语言开发 感兴趣,请务必关注我们!

项目信息

自动化测试平台:gitee.com/test-instru…
AI+UI自动化工具:github.com/lingcetech/…
测试平台demo:demo.yangfan.gd.cn/
账号:admin,密码:123456

👇 长按关注,获取更多硬核干货

  • 后续更新预告:手把手教你数据仓库融合自动化测试,解锁测试提效新范式!

让我们一起,用 AI 解放双手,重塑测试未来!