Midscene.js: AI驱动的移动端自动化

Midscene.js: AI驱动的移动端自动化

本次交流会聚焦 AI 驱动的移动端自动化创新,测试领域人员萧润波(Xiao Run Bo,Broc.X)先生带来 “Midscene.js:AI 驱动的移动端自动化” 主题分享,深入探讨如何通过自然语言轻松实现跨 Web 与 Android 双端自动化,告别传统脚本依赖,为现场及线上观众带来了一次具有技术深度与实践价值的技术分享。

Midscene.js: AI驱动的移动端自动化

萧先生详细拆解了 Midscene.js 的五大核心内容。作为字节跳动开发的创新 AI 驱动 UI 自动化工具,Midscene.js 是基于多模态 AI 的自动化测试框架,通过引入多模态大型语言模型智能解释能力,实现了自然语言与界面操作的无缝连接。四大核心特性移动自动化开发提供了新思路:AI 原生架构从底层融合 AI 技术,以语义理解为核心,大幅减少对坐标定位与选择器路径的依赖;开源开放的模式拥抱技术生态,支持全球开发者审查与贡献;跨平台统一设计兼容 Web 和安卓,实现 “一次编写、全端运行”;范式革新将传统 “编程式脚本” 升级为 “意图式交互”,用户可通过自然语言描述驱动操作

在核心技术架构方面,萧先生介绍道,Midscene.js 通过 ADB 与 scrcpy/yume-chan 实现设备稳定连接与低延迟实时画面捕获,结合视觉语言模型(VLM)完成屏幕内容语义解析与动态元素定位,再经由 Midscene Agent 将用户指令拆解为可执行操作序列,最终通过 ADB 实现设备控制与任务闭环执行。该架构支持本地 Agent 与远程桥接两种部署模式,兼容 Playwright/Puppeteer 生态,同时提供 JavaScript SDK 与 YAML 脚本双模式开发,既满足复杂逻辑场景的精细化控制需求,又降低了简单任务的配置门槛,兼顾灵活性与易用性。

针对传统自动化面临的定位脆弱、维护成本高、缺乏语义理解、适应性差等痛点,萧先生对比分析了 Midscene.js 的创新优势:其语义驱动的元素定位方式不依赖固定 resource-id 或 XPath,即使页面结构调整,只要语义特征保留,仍能精准执行操作;统一的跨端框架与清晰的脚本结构,大幅降低了多端维护成本与迭代难度。

开发与调试层面,Midscene.js 提供的 Playground 工具打造了即时可视化调试环境,支持实时预览操作、交互式调试、所见即所得的开发体验与高效迭代,同时生成包含全程操作记录、路径回放、决策解析的可视化执行报告,显著降低调试门槛。内置的缓存机制与 MCP 服务则进一步优化了执行效率,支持断点续跑与状态持久化,加速重复任务的开发迭代。

在分享尾声萧先生现场演示了 Midscene.js 在 POS 端从打开应用、加购商品到下单付款的完整自动化流程,直观呈现了自然语言指令驱动下的跨端自动化实操效果,得了观众的关注

本次 Midscene.js 技术分享活动举办,不仅全面展现了 AI 驱动移动端自动化的创新成果与发展潜力,技术交流经验共享提供了平台

Midscene.js: AI驱动的移动端自动化