🎉 Midscene 六月更新汇总:四大核心功能深度解析!

avatar
前端 @字节跳动 Web Infra

🔍 四大核心功能深度解析

1️⃣ 全新缓存方案:XPath 精准定位

重构后的缓存方案带来革命性改进:

  • YAML格式缓存文件:提高可读性和维护性

  • 双重验证机制:确保缓存命中精准度

  • 智能回退机制:缓存失效时自动切换 AI 定位

  • 典型性能提升:缓存命中率提高 37%

2️⃣ 结构化 API:数据提取新维度

支持多种数据结构化提取:

  • aiBoolean:条件判断(如检查状态)

  • aiNumber:数值提取(如未读消息计数)

  • aiString:文本提取(如用户名获取)

  • aiQuery:灵活数据结构查询

代码示例:

// 检查记录是否包含"已完成"标签
const hasCompleted = await agent.aiBoolean('检查记录是否包含"已完成"文本')

更多结构化 API 用法建议阅读「使用 JavaScript 优化 AI 自动化代码」

3️⃣ 回放报告增强版

自定义报告节点
  • 新增logScreenshot API 插入关键节点截图

  • 支持添加自定义描述文本

  • 适用于错误状态捕获和 UI 验证

视频导出功能
  • 一键导出报告的过程视频

  • 便于问题复现和结果分享

4️⃣ 执行过程数据透视

通过_unstableLogContent API 可获取:

  • 每个步骤的详细耗时分析

  • AI Tokens 消耗明细

  • 操作节点完整截图

对了,Midscene 的报告就是根据这份数据生成了,也就是说,使用这份数据,你甚至可以定制一个属于你自己的报告!

// 获取完整执行日志
const logContent = agent._unstableLogContent()

⚡ 其他重要优化

  • Web 集成增强:新增 aiAsk 方法支持直接向 AI 提问获取页面信息

  • Android 改进:支持任务中断、增强像素比计算,优化 adb 配置

  • 报告体积优化:典型复杂页面报告文件大小从 47.6M 降至 15.6M

  • DOM 可视能力:支持提取页面隐藏属性(如链接地址等)

🛠️ 开发者特别提示,这些功能现已全部上线!立即升级体验!

完整更新日志请见:更新日志