今年3月初,通用AI代理产品“ Manus”发行后变得流行。到3月底,Manus的母公司Effec被揭示正在寻求新的融资,目标估值超过5亿美元。
由于MANUS处于内部测试阶段,因此仅以邀请代码的形式开放,该邀请代码曾经在二手平台上炒作了数万元人民币,而无数的开发人员,投资者和从业人员则排队进行评估。
同时,该行业对Manus的评估开始是单方面的,并且开始越来越有疑问和批评的声音。
一方面,关于马努斯的争议来自这一团队没有很强的技术能力的事实。大型模型中使用的一个,后来与阿里巴巴·汤蒂·齐恩( )合作,该被质疑为“壳封闭”产品,没有阈值。公司的营销言论“世界上第一个通用AI代理”显然是不正确的。国际开发人员社区长期以来一直拥有这样的AI代理产品。再加上各种媒体和自我媒体的早期夸张的修改词,它实际上引起了许多人对马努斯的激进营销的厌恶。
但另一方面,一些投资者和从业人员看到了非常积极的一面,他们认为Manus在产品互动中确实是显着的。他们指出,在这一天进行演示很容易,很难制作好产品。在宣传初创公司时要大胆,这还不错。
更令人兴奋的是,尽管Manus还不够好,但它使人们可以在AI应用程序爆发前夕看到黎明。
在本文中,让我们谈论由Manus,AI代理的技术开发途径,当前的技术瓶颈,什么是好AI代理产品引起的流行和争议,以及一般AI代理何时会来。
01马纳斯评估
1.1开发人员评估手稿
硅谷101还收到了几个邀请代码。团队的朋友对其进行了测试,但效果确实比预期的要差得多。
雅各布
硅谷101后期负责人:
我用马努斯在手稿中找到信息来源。我认为我对GPT有点聪明,但是我花了半个小时才能完成多任务。
陈方
硅谷101联合创始人和视频经理:
我要求它帮助我组织故事板,我觉得它的美学味道就像是一名实习生,当我做故事板时,它被卡在了故事板上21个小时,但仍然被卡住了。
硅谷101联合创始人和视频经理:
当要求马努斯组织微信教科书时,他有幻觉。
Wang Keyi
硅谷101的特别研究人员,“创建客人”的经理:
它一开始就理解了我的需求,但是在执行中间,它脱颖而出。
我们还邀请AI代理开发人员Wang系统地评估MANUS。在过去的两年中,他在AI代理和AI应用程序开发方面拥有丰富的经验。他希望能够表达模型能力的能力,因此他已经建立了一种评估机制,并且该系统还可以评估其他应用程序或模型。以下是评论的一部分:
我主要有三个测量指标:“准确性”,“可用性”和“完整性”,并被归类为五个任务:“研究”,“教育”,“生活”,“数据分析”和“创意工作”。
我根据每个指标的性能从1到5得分。表现越好,得分越高,表现越好,得分越低,最终获得了三个维度的平均得分。
让我们谈谈首先做得很好的部分:研究中的4分和4.5点教育。这两个部分的能力非常强大,精度和完成。
但是这两个领域的结果实际上符合我们的期望,因为它们也具有深入的研究功能。它们实际上是为了帮助您在上找到各种信息,让大型模型根据您的需求进行解释,或采取一些措施。
Manus AI体系结构使用其他模型。据谣言,它是-R1。 MANUS将使用这两个模型根据用户需求生成任务列表。然后,Manus可以通过编程和搜索进行搜索,并像人类一样搜索浏览器上的内容以爬网。
一般而言,MANUS更多地是在获取信息并通过工具,功能和API汇总信息,或通过渲染(例如制作表,执行某些程序等)向用户表达信息,等等。
但是,除了研究和教育外,Manus的生活,数据分析和娱乐得分相对较低,“生命”得分为3.5分,“数据分析”得分为2.5分,而“ Fun Fun”得分为2.5分。
在我们的测试中,马努斯遇到的大问题是,它可以从不同来源整合信息的能力并不是特别强大。模型本身的逻辑能力和信息综合能力还不够,这还不足以在用户的实际体验中提供有效的帮助。
以上是审查的摘录。想要观看完整版的观众可以观看硅谷101视频或微信视频帐户“硅谷AI先驱”。
让我们简要总结Manus的功能:关于简单的任务,它提供了一种非常丝质的互动产品形式的一般AI代理。尽管人们认为,对于非开发人员2C用户来说,有些公司已经在硅谷开发人员社区中完成了该产品,但是当他们看到Manus页面表明它确实正在加速观看视频,阅读文档并访问不同的网站来搜索信息,这确实使“ AI Agent”的潜力使“ AI Agent”成为“ AI Agent”的潜力,以帮助用户完成一系列的工作,以完成一系列的工作。这仍然很棒。
当然,它不能很好地完成稍微困难的任务,甚至会陷入数十个小时的时间,这表明它仍处于早期产品阶段,并且以后需要很多迭代。
1.2用户阈值和2C产品的“唤醒环”
一些客人还认为,第一代人工智能产品应该有所谓的“阈值”概念。在到达AGI之前,可能没有100%准确性且没有错误的通用AI代理。每个人都需要给AI代理商一些时间和耐心。不同群体的需求将从简单到复杂逐渐迭代地实现。
周
创始主伙伴合作伙伴资本(CCV)
KPCB前中国基金经理:
我认为MANUS产品超过了用户的阈值。如果用户想将产品用作生产力工具,则必须超过一定的满意度,然后才能充分使用。
实际上,TOB方面的许多AI产品已经赚取了良好的收入,但是在C方面,人们从来没有觉得有一种产品可以改善他们的生活。我认为Manus已经做到了这一点,并且在用户体验方面做得很好。尽管目前它的功能相对平凡,至少从那时起,它最终无法涵盖所有功能,但它的某些功能非常完美,并且将来仍然有进一步改进的余地。
我们已经看到了一些争议,说这只是一个AI操纵器,指示其他两个AI基础模型来完成任务。讨论说明了一个问题,也就是说,当前的AI从业人员群体中存在着一个很大的误解:在技术上是自我利益的。
给我留下深刻印象的是,在乔布斯被踢出苹果并返回之后,在一次公开会议上有1000多名工程师。其中一位工程师站起来挑战他,说:您不了解技术,为什么要指导我们并成为这家公司的领导者?乔布斯的答案是:我知道如何满足用户需求,用户需要什么样的产品,我可以出售它。
我认为这回答了当前的马努斯问题。当指责它只是AI指挥官时,为什么不创建一个完美的用户界面来满足用户的真实需求?这是AI从业者现在需要考虑的问题。如何使产品体验超过用户的阈值并成为生产力工具?如果这样做,市场认可将很高。
对于世界而言,一个唤醒电话(唤醒戒指)告诉所有人:事实证明,大型模型也可以使用这条路实现,而不是通过暴力堆叠路径来实现。我认为Manus也是唤醒铃声。它告诉所有AI从业者不要痴迷于基础技术。您需要做的是为产品提供很高的完整性,以便每个人都可以使用它,并最终实现技术平等和技术包容性。如果即使是老人和奶奶也开始使用它并认为它易于使用,那么目前这是TOC产品的巨大成就。
Manus发出了一个非常清晰的信号:大型模型基础已经准备好,足以制造出很高完成的产品。因此,我认为现在是努力的好时机。
AI联合创始人他认为,在AI代理产品中有四个方面的工作:“模型”,“工具”,“数据”和“基础架构”。产品或公司必须在其中至少两个中具有绝对优势,以保持其领先优势。他认为Manus具有两个优势:“工具”和“数据”。
他
人工智能
AI联合创始人:
Manus具有工具的优势,因为他将多个工具缝合在一起,并且他也可能有一些独特的方法,例如指示多个代理人一起工作。我认为缝制各种工具本身就是一个功能。它确实可以使用其他基础模型,但是它可以收集用户发送的(提示单词)并比较哪些提示单词输出更好的结果,从而可以帮助其迭代和升级。
由于MANUS具有第一步的优势,因此他可以尽早获取用户数据,并且可能会发现哪些代理更重要并更快地迭代它,因此实际上它在不断升级数据和工具的道路上,这正是应用程序企业家需要做的事情。
至于模型和基础设施,我认为最好与大型工厂合作,所以不要做任何努力。
“技术已经准备好”,这是我们与许多AI从业者和投资者进行交流时所揭示的信号和见解。
02 AI代理技术发展的历史
在过去的一段时间里,“代理”一词有点“过于普遍”,而阈值有点太低了,因此首先让我们澄清AI代理的定义。
技术人员通常将AI代理定义为:具有三个能力:“逻辑推理能力和决策能力”(),“内存能力和上下文理解”()和“工具使用能力”(工具)。更重要的是,他们需要具有学习和使用不同新工具的能力。
基思·盖伊
小鱼联合创始人:
从某种意义上说,我们定义自己的代理人应该像人类一样,可以使用各种网络工具并学习如何使用不同的东西,但这对代理商来说是一个非常困难的挑战。
让我们看一下AI生态系统在过去几年中如何开发出三个主要能力:(),内存()和工具(工具)。
2.1推理能力
王
硅谷101邀请研究员
AI代理开发人员:
AI代理需要具有强大的逻辑功能,因为当它最终帮助用户执行任务时,它需要澄清如何对此任务做出决策?我应该使用什么工具?获取信息后,您应该采取什么行动?因此,推理()是最重要的能力之一。
2022年10月,就在启动的一个多月之前,和Brain合作的团队提出了React框架。
React是一种将推理和行为与LLM(大语言模型)结合起来的常见范式,它使大型模型不仅可以回答问题,还可以采取原因并采取行动。简而言之,这是允许AI在回答问题时执行一些动作,而不仅仅是“移动嘴”。
王
硅谷101邀请研究员
AI代理开发人员:
React的作用更倾向于(提示单词工程)。实际上,它可以通过设置一些不同的提示单词来使大型语言模型以某种格式输出。
例如,第一步是了解用户想要的内容,然后考虑下一步要做什么,并告诉模型可用的工具。当模型具有逻辑功能时,它将选择一个工具。例如,如果用户想预订机票,他需要搜索与空气票有关的信息,然后代理将通过调用某个工具或API或模型本身编写的功能来完成这一系列操作。获得此信息后,代理仍然需要考虑下一步是为了帮助用户制作机票,还是告诉用户此信息,然后让用户决定。因此,所有的AI代理结构实际上都始于本文。
但是,当时最先进的Model GPT-3.5的功能相对有限,这使AI代理的逻辑推理能力不出色,并且错误率非常高。
后来发布的GPT-4大大提高了其理解能力,推理能力和回答质量。同时,在2023年3月23日,发布了插件功能,允许大型语言模型调用外部工具并开发APTS,并支持开发人员将LLM连接到数据库,工具和。所有这些都使AI代理商的开发人员感到兴奋。
王
硅谷101邀请研究员
AI代理开发人员:
一开始,我只能进行一些对话并生成文本,但是后来它可以在上搜索内容,也可以将其连接到不同的数据库以提取信息或使用一些工具。
当时,开发人员社区正在如火如荼地进行,因为整个模型具有推理能力,并且也可以连接到各种工具以完成一系列复杂的操作。当时有一家公司非常有趣,该公司于2011年成立,但主要制造了一些自动化工具。但是,在发布大型语言模型之后,他们帮助大型语言模型尽快制造了这一系列工具。例如,许多早期开发人员应该使用它,例如,它可以将大语言模型连接到邮箱,也许可以将大型语言模型连接到 ,从而可以完成更复杂的任务。
因此,在2023年初,已经建立了AI代理技术的三个主要要素的第一步,并且逻辑推理能力得到了显着提高。您也可以使用各种外部API并调用外部工具来完成任务。
接下来,开发人员生态系统进入了技术发展的第二章:记忆能力和上下文理解。
2.2内存能力
王
硅谷101邀请研究员
AI代理开发人员:
一开始,GPT有大约4096个令牌,但实际上很小。它只能输入3000多个英语单词。当时,每个人都非常担心他们无法输入更多信息以使模型执行得更好。
但是到5月,最大的竞争对手发布了模型。该模型在开始时吸引了开发人员的注意的主要原因是,与可接受的令牌相比,主要增加是大约100次,这意味着它可以获得更多信息来思考和做出决定。因此,该版本也是技术历史上非常关键的一步。
2023年5月11日,启动的模型可以支持100,000个令牌的上下文窗口,从而使LLM可以根据大量信息来处理更大的信息并增强推理和决策能力。
不久之后,在2023年6月13日,朝这个方向进行了技术迭代,发布了函数调用(),引入JSON模式和16,000个令牌的上下文窗口。这允许AI更可靠地调用外部API,例如检查天气,填写表格和其他任务。
此后,2.1版本在2023年11月21日,将上下文窗口扩展到200,000个令牌,这相当于AI可以一次记住整个教科书的内容,并大大提高其思维能力。这也意味着可以进一步扩展大型模型的内存能力,并且可以优化推理和决策过程。
然后在2024年2月,当发布1.5时,它将令牌数量的上下文窗口扩展到了百万级。在这一点上,AI代理的开发中的第二个技术障碍“记忆”被完全破坏了,这对开发人员来说不再是一个大问题。
2.3工具使用情况
在2023年底,前两个技术障碍的突破使大型语言模型可以在虚拟世界中充当机器人更加可行。目前,一些初创公司开始在硅谷生态系统中活跃。
王
硅谷101邀请研究员
AI代理开发人员:
我知道的第一家AI代理应用程序公司可以使用大语言模型控制用户计算机,它应该在2023年12月底发布了该演示的第一个版本。如您所见,AI代理的功能已经越来越强大。从使用各种工具,连接各种数据库并调用不同的应用程序,它已经发展为能够控制计算机。这使我感到AI经纪人的技术路线取得了巨大的飞跃。
在2024年10月底,发布了“使用”功能,这进一步促进了AI代理直接控制计算机的能力,AI变得更像是一位真实的,可行的智能助手。
王
硅谷101邀请研究员
AI代理开发人员:
您会看到开发人员社区或初创公司实际上比大公司早得多。
在AI圈中引起了很多关注的Ng教授(和DA NG)在2024年底就AI代理发表了演讲,完全激发了人们对技术和非技术圈子中AI代理商的期望和热情。 “ 2025将成为AI代理申请的第一年”的预测已开始出现在主要媒体的头版上。
尽管多种AI代理应用程序演示长期以来在全球开发人员社区中很普遍,但在MANUS之前,大多数专注于企业级(TOB)应用程序而不是直接到消费者(TOC)。那么困难是什么?
基思·盖伊
小鱼联合创始人:
实际上,由于已经建立了互联网,因此设计上所有工具的主要目标是允许人类使用它。在这种逻辑下,机器很难完成准确和大规模的交互。这是人类在大语言模型出现之前无法解决的问题。
在AI代理商之前,该行业没有构成范式共识,因此,现在它离AI代理的概括(即对整个行业的支持)仍然距离一步之遥。
2.4一步之遥
在的观点中,上面提到的逻辑推理,上下文记忆和工具调用功能都是“代理”(单一代理)的技术发展。
但是,为了真正开发AI代理并实现主流和规模,有必要实现多代理(多代理)之间的沟通和互连。不同的代理需要在不同设备和不同的计算机室之间执行计算和链接,以促进数亿个用户机会的应用。困难在于一般和标准化方案适应范式。
他
人工智能
AI联合创始人:
通过使用大型模型来驱动逻辑推理,上下文存储器和工具调用而生成的AI代理定义为单独的代理,这是开发的第一阶段。
第二阶段的迹象是代理商可以相互交流。
第三阶段是允许代理商计算和链接不同的设备和不同的计算机房间。我认为这是将来必须由1亿用户支持的架构。这是一个点无法实现的。
目前,我们仍处于竞争和尝试的第三阶段。在此阶段要解决的问题是,许多网站或工具不支持AI代理的调用。
例如,许多网站和服务将具有“反机器人”设置。我们还看到,当Manus执行任务时,它通常会失败,因为它无法访问某些数据。因此,在此阶段,我们需要创建一个共同的协议来解决此问题,以支持不同的AI代理之间的联系。
许多公司,包括其他公司,都试图适应协议。在2024年11月上旬,启动了“模型上下文协议”(模型,MCP),引入了“应用程序如何为LLM提供上下文”的规范。
称MCP协议为“ AI应用程序的USB-C端口”支持大型模型与数据源的直接连接。以前,企业和开发人员必须将不同的数据连接到AI系统,并且必须分别开发对接解决方案,而MCP所做的就是提供“一般”协议来解决此问题。
但是,MCP解决了第三代技术和最后一代问题的问题,这是AI代理应用程序大规模爆炸的障碍,即,代理商之间的真正统一的通信标准和分布式计算。就像今天的和iOS一样,我们还需要全球认可和通用的AI OS。
他
人工智能
AI联合创始人:
例如,现在有两个独立的代理。如果您希望这两个代理商相互合作,则需要创建第三个代理,该代理负责与前两个代理进行沟通。
但是,剂之间没有相互作用的标准。一个协议是a,另一个协议是B。因此,第三代理需要更改其各自的协议,以便两者可以相互通信。
就像10或20年前一样,有两种类型的计算机,一台由IBM制造,另一台由英特尔制造。如果它们之间的基本链接没有连接,则将无法在两个软件之间进行通信。当时,如果没有TCP/IP,这将更加麻烦。但是,当涉及到移动互联网时,例如基站TTL,TEL等的通信标准,如果所有设备和软件都符合此标准,那么每个人都可以互相通信。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论