MAI-UI 智谱UI-Agent

esc

请输入并搜索

MAI-UI 智谱UI-Agent

2025-12-29

00

目录

https://arxiv.org/html/2512.22047v1

一、核心创新

MAI-UI 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:

智能体-用户交互能力不足 - 现有系统缺乏主动询问、澄清用户意图的能力
仅依赖UI操作的局限性 - 长操作序列容易出错,且无法完成某些任务
缺乏端云协同架构 - 纯云端方案有隐私风险,纯端侧方案能力受限
动态环境脆弱性 - 在静态数据上训练的模型难以应对真实场景的多变性

二、技术方案

1. 自进化数据流水线

结合人工标注、模型合成和迭代拒绝采样
扩展动作空间:包含UI操作 + 用户交互(ask_user) + MCP工具调用(mcp_call)
从多个视角生成指令(外观、功能、位置、意图),作为推理路径

2. GUI定位训练范式

指令即推理(Instruction-as-Reasoning):将多视角指令作为显式分析推理
先监督微调(SFT),再强化学习(RL with GRPO算法)
Zoom-in策略:复杂场景下先粗定位,再裁剪放大精细定位

3. 端云协同系统

本地智能体:既充当GUI执行者,也作为轨迹监控器
云端智能体:高容量模型,在检测到偏差时接管
统一轨迹内存:维护端云间的一致状态交换
根据任务状态和数据敏感性动态路由计算

4. 在线强化学习框架

可扩展GUI环境:容器化Android虚拟设备,支持512并发实例
长视距RL:异步rollout + 混合并行(TP+PP+CP)处理百万token轨迹
自动课程学习:根据任务难度动态调整采样分布
混合验证器:规则验证 + MLLM-as-Judge

三、性能亮点

GUI定位(Grounding)

ScreenSpot-Pro: 73.5%(带zoom-in),超越Gemini-3-Pro和Seed1.8
MMBench GUI L2: 91.3%
OSWorld-G: 70.9%(75.0% refined版本)
UI-Vision: 49.2%

移动导航

AndroidWorld: 76.7%(SOTA),超越UI-Tars-2、Gemini-2.5-Pro、Seed1.8
MobileWorld: 41.7%成功率,大幅领先端到端模型
端侧2B模型也达到49.1%,比Ferret-UI Lite提升75.4%

端云协同效果

端侧性能提升33%
云端调用减少40%以上
保护用户隐私的同时提升效率

四、实验发现

规模化收益:并行环境从32扩展到512带来+5.2点提升,环境步数预算从15增至50带来+4.3点提升
MCP增强:在需要工具调用的任务上成功率提升+18.7
用户交互:在需要澄清的任务上成功率提升+32.1
RL鲁棒性:在线RL显著提升模型在动态环境中的泛化能力

五、关键意义

MAI-UI代表了GUI智能体从实验室走向实用的重要一步,通过系统性地解决用户交互、工具集成、隐私保护和环境适应等实际问题,为下一代人机交互提供了可行方案。其全尺寸家族设计也体现了对不同部署场景的深刻理解。

如果对你有用的话，可以打赏哦

打赏

ali pay

wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外，均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改，但必须注明出处并提供原作者链接。许可协议。转载请注明出处！

< Vanblog 如何自定义markdown ccs渲染样式

奖励塑形(Reward Shaping)技术解释 >

目录