一、简介
你有没有想过,你的手机也能像电影《钢铁侠》中的智能管家贾维斯一样,只用一句话就能流畅自如地完成各种复杂的任务?
近期,国内外手机厂商和AI公司纷纷发布手机AI代理相关产品,让以前的幻想逐渐变得可行。
作为行业领头羊,vivo在10月开发者大会上推出了移动智能手机产品“”,该产品可以帮助用户点咖啡、点外卖,甚至可以通过AI一句话找到最近的私人餐厅并拨打电话。订包间被网友称为“我的救星”。
图1 vivo预约(蓝心小V对话或小V主界面下滑探索-智慧广场体验)
与此同时,各大厂商似乎都提前预约好了,都瞄准了一句话点咖啡的场景,这与乔布斯当初用星巴克点咖啡时的即时感觉颇为相似。甚至有一个笑话,今年秋天的第一杯咖啡将由手机智能手机为您订购。
图2 vivo点咖啡(蓝心小V对话或小V主界面下滑探索-智体广场体验)
尽管行业发展迅速,近期手机AI代理论文爆发,相关技术路线快速迭代发展,但该领域仍缺乏系统综述。此次,vivo AI Lab联合香港中文大学MMLab等团队发布了《大型模型驱动的手机AI 》综述论文。该论文长达 48 页,涵盖 200 多个文档。对相关技术进行了全面深入的研究,希望能为学术界和工业界提供参考,共同推动行业发展。
1.1 研究背景
1.2 研究目的
1.3 主要贡献
图3 大型模型驱动手机GUI代理文献分类
2、手机自动化的发展历史
2.1 LLM时代之前的手机自动化
2.2 传统方法的挑战
2.3 LLM推动手机自动化
图 4 大型模型驱动的移动 GUI 代理开发的里程碑
2.4 新兴业务应用
3. 移动GUI代理框架
3.1 基本框架
图5 大模型驱动的手机GUI代理基本框架
3.2 多智能体框架
图6 多Agent框架分类
3.3 计划然后行动框架
4. 手机自动化的大语言模型
图7 型号分类
4.1 提示项目( )
图8 提示词设计
4.2 基于训练的方法(-Based)
图9 不同的UI理解任务
5. 数据集和基准
5.1 相关数据集
表1 数据集
5.2 基准测试
表2
6. 挑战和未来方向
6.1 数据集开发和微调可扩展性
6.2 轻量高效的设备侧部署
6.3 以用户为中心的适配:交互和个性化
6.4 模型定位、推理等能力的提升
6.5 标准化评估基准
6.6 确保可靠性和安全性
七、总结
展望未来,随着模型架构、设备端推理优化和多模态数据集成的完善,基于大模型的移动GUI代理有望在复杂任务中实现更高的自主性,集成更多的AI范式,为用户提供无缝、个性化和安全的体验。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论