MAI-UI 智谱UI-Agent
2025-12-29
DL论文
00

目录

一、核心创新
二、技术方案
1. 自进化数据流水线
2. GUI定位训练范式
3. 端云协同系统
4. 在线强化学习框架
三、性能亮点
GUI定位(Grounding)
移动导航
端云协同效果
四、实验发现
五、关键意义

https://arxiv.org/html/2512.22047v1

一、核心创新

MAI-UI 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:

  1. 智能体-用户交互能力不足 - 现有系统缺乏主动询问、澄清用户意图的能力
  2. 仅依赖UI操作的局限性 - 长操作序列容易出错,且无法完成某些任务
  3. 缺乏端云协同架构 - 纯云端方案有隐私风险,纯端侧方案能力受限
  4. 动态环境脆弱性 - 在静态数据上训练的模型难以应对真实场景的多变性

二、技术方案

1. 自进化数据流水线

  • 结合人工标注、模型合成和迭代拒绝采样
  • 扩展动作空间:包含UI操作 + 用户交互(ask_user) + MCP工具调用(mcp_call)
  • 从多个视角生成指令(外观、功能、位置、意图),作为推理路径

2. GUI定位训练范式

  • 指令即推理(Instruction-as-Reasoning):将多视角指令作为显式分析推理
  • 先监督微调(SFT),再强化学习(RL with GRPO算法)
  • Zoom-in策略:复杂场景下先粗定位,再裁剪放大精细定位

3. 端云协同系统

  • 本地智能体:既充当GUI执行者,也作为轨迹监控器
  • 云端智能体:高容量模型,在检测到偏差时接管
  • 统一轨迹内存:维护端云间的一致状态交换
  • 根据任务状态和数据敏感性动态路由计算

4. 在线强化学习框架

  • 可扩展GUI环境:容器化Android虚拟设备,支持512并发实例
  • 长视距RL:异步rollout + 混合并行(TP+PP+CP)处理百万token轨迹
  • 自动课程学习:根据任务难度动态调整采样分布
  • 混合验证器:规则验证 + MLLM-as-Judge

三、性能亮点

GUI定位(Grounding)

  • ScreenSpot-Pro: 73.5%(带zoom-in),超越Gemini-3-Pro和Seed1.8
  • MMBench GUI L2: 91.3%
  • OSWorld-G: 70.9%(75.0% refined版本)
  • UI-Vision: 49.2%

移动导航

  • AndroidWorld: 76.7%(SOTA),超越UI-Tars-2、Gemini-2.5-Pro、Seed1.8
  • MobileWorld: 41.7%成功率,大幅领先端到端模型
  • 端侧2B模型也达到49.1%,比Ferret-UI Lite提升75.4%

端云协同效果

  • 端侧性能提升33%
  • 云端调用减少40%以上
  • 保护用户隐私的同时提升效率

四、实验发现

  1. 规模化收益:并行环境从32扩展到512带来+5.2点提升,环境步数预算从15增至50带来+4.3点提升
  2. MCP增强:在需要工具调用的任务上成功率提升+18.7
  3. 用户交互:在需要澄清的任务上成功率提升+32.1
  4. RL鲁棒性:在线RL显著提升模型在动态环境中的泛化能力

五、关键意义

MAI-UI代表了GUI智能体从实验室走向实用的重要一步,通过系统性地解决用户交互、工具集成、隐私保护和环境适应等实际问题,为下一代人机交互提供了可行方案。其全尺寸家族设计也体现了对不同部署场景的深刻理解。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!