AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播

进不了网站?换个网络试试!

一、简介

你有没有想过,你的手机也能像电影《钢铁侠》中的智能管家贾维斯一样,只用一句话就能流畅自如地完成各种复杂的任务?

近期,国内外手机厂商和AI公司纷纷发布手机AI代理相关产品,让以前的幻想逐渐变得可行。

作为行业领头羊,vivo在10月开发者大会上推出了移动智能手机产品“”,该产品可以帮助用户点咖啡、点外卖,甚至可以通过AI一句话找到最近的私人餐厅并拨打电话。订包间被网友称为“我的救星”。

图1 vivo预约(蓝心小V对话或小V主界面下滑探索-智慧广场体验)

与此同时,各大厂商似乎都提前预约好了,都瞄准了一句话点咖啡的场景,这与乔布斯当初用星巴克点咖啡时的即时感觉颇为相似。甚至有一个笑话,今年秋天的第一杯咖啡将由手机智能手机为您订购。

图2 vivo点咖啡(蓝心小V对话或小V主界面下滑探索-智体广场体验)

尽管行业发展迅速,近期手机AI代理论文爆发,相关技术路线快速迭代发展,但该领域仍缺乏系统综述。此次,vivo AI Lab联合香港中文大学MMLab等团队发布了《大型模型驱动的手机AI 》综述论文。该论文长达 48 页,涵盖 200 多个文档。对相关技术进行了全面深入的研究,希望能为学术界和工业界提供参考,共同推动行业发展。

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图

1.1 研究背景

1.2 研究目的

1.3 主要贡献

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图1

图3 大型模型驱动手机GUI代理文献分类

2、手机自动化的发展历史

2.1 LLM时代之前的手机自动化

2.2 传统方法的挑战

2.3 LLM推动手机自动化

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图2

图 4 大型模型驱动的移动 GUI 代理开发的里程碑

2.4 新兴业务应用

3. 移动GUI代理框架

3.1 基本框架

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图3

图5 大模型驱动的手机GUI代理基本框架

3.2 多智能体框架

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图4

图6 多Agent框架分类

3.3 计划然后行动框架

4. 手机自动化的大语言模型

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图5

图7 型号分类

4.1 提示项目( )

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图6

图8 提示词设计

4.2 基于训练的方法(-Based)

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图7

图9 不同的UI理解任务

5. 数据集和基准

5.1 相关数据集

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图8

表1 数据集

5.2 基准测试

AIxiv专栏:机器之心发布2000+学术技术内容,促进全球学术交流与传播插图9

表2

6. 挑战和未来方向

6.1 数据集开发和微调可扩展性

6.2 轻量高效的设备侧部署

6.3 以用户为中心的适配:交互和个性化

6.4 模型定位、推理等能力的提升

6.5 标准化评估基准

6.6 确保可靠性和安全性

七、总结

展望未来,随着模型架构、设备端推理优化和多模态数据集成的完善,基于大模型的移动GUI代理有望在复杂任务中实现更高的自主性,集成更多的AI范式,为用户提供无缝、个性化和安全的体验。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论