聊天机器人开始面临基本限制
在本文中,来自AI2和华盛顿大学等机构的研究人员说,联合能力存在局限性。
以基本乘法为例,让“ GPT-4”计算两个三位数的乘积,初始准确率仅为59%。当乘数增加到4位数字时,准确率直接下降到4%。
纸张地址:
同时,曾曾经是博士学位的彭本伊(Peng )发表的论文。在哥伦比亚大学,该报告还引用了该报告,以证明存在基本限制。
纸张地址:
纸张地址:
首次作品Peng 和他的导师还证实,由于缺乏组合能力,LLM具有幻觉。
他们指出:“如果大型模型只有一个层结构,并且参数总数小于域的大小,则AI将无法求解合并的任务。”
实际上,这些研究本身并不是什么,但QM称其为“最近”。评论部分立即被网民的投诉所淹没。
研究员诺姆·布朗(Noam Brown)直言不讳地说:“学术界的研究速度相对较慢,而LLM领域的发展速度比通常的速度更快。”
研究科学家驳斥了这一点,我们在4-5位算术操作中仍然没有达到完美的水平。
这些论文中的观点现在仍然有效吗?
乘以四位数,GPT-4精度为4%
艾伦人工智能学院的科学家努哈·迪兹里(Nouha Dziri)和他的团队测试了LLM作为代表试图解决此类逻辑问题的代表,并且该模型的表现不佳。
Dziri指出,当面对复杂的任务时,LLM很难根据培训数据外的信息来推理,并且只能进行近似推断,这很可能会犯错。
一项需要将答案集成到多个子问题的任务才能提出最终结果,称为组合任务。
Nouha Dziri的团队发现,大多数LLM仅依靠预测序列中的下一个单词进行培训,并且在应对组合推理任务时存在根本缺陷。
处理此类问题时,大多数LLM所采用的架构将受到数学限制。
尽管科学家已经取得了一些破坏局限性的结果,但这些成就越来越像定格措施一样。
这种类型的模型有基本的计算瓶颈,也许是时候考虑改变研究思想了。
纽约大学的机器学习专家说:“这项研究的真正目的是帮助学术社区判断它是否适合通用学习。”
O1和GPT-4()对几乎所有可用的互联网数据进行了培训。
LLM掌握了语法并积累了许多语义知识。可以对这些预训练的模型进行进一步培训或优化以完成更复杂的任务,例如汇总复杂文档和生成游戏代码。
它是如此强大,以至于似乎能够推理,但与此同时,它在某些方面非常贫穷,令人惊讶的是愚蠢。
以基本乘法操作为例,像GPT-4这样的LLM效果不佳。
在2023年初,Dziri团队测试了GPT-4,并要求它计算两个三位数乘以乘以,初始精度仅为59%。当计算两个四位数数字的乘法时,精度率急剧下降,只剩下4%。
该团队还测试了LLM在拼图任务上的表现,结果也不理想。
当难题是两个房屋时,每个房屋对应于两个属性,GPT-4仍然可以正确回答。但是,当难题升级到四座房屋时,每个房屋对应于四个属性,精度率将大幅降至10%。
“国际生活”中的原始拼图版本是五座房屋,每个房屋对应于五个属性,而GPT-4的准确率直接归零。
Dziri认为“这只是模仿我所看到的,而不是真正理解的。”
有局限性很难突破LLM
同时,另一个研究团队采取了不同的方法来理解为什么LLM在处理组合任务时遇到困难。
当时,曾在哥伦比亚大学学习博士学位的彭本伊(Peng ),他的导师和其他人研究了为什么LLM具有幻觉并产生了与事实不一致的错误信息。
以下三个图中的示例显示了LLM在空间组成,时间组成和关系组成方面产生的幻觉。
左右滑动以查看
在这方面,团队怀疑原因是它缺乏“组合能力”。
假设您在LLM中输入了两片信息:一个是弗雷德里克·肖邦的父亲是尼古拉·肖邦( ),另一个是尼古拉·肖邦( )出生于1771年4月15日。 ?
目前,LLM需要集成这两个信息以回答。
实际上,它想要回答的是一个嵌套的问题,首先找出弗雷德里克·肖邦( )的父亲是谁,然后回答了该人的出生日期。
如果LLM给出的答案是错误的,并且出现了所谓的“幻觉”,那么它很可能未能成功完成此组合任务。
为了验证这一猜想,团队首先研究了一个简单的功能。
该模型只有一层。在预测下一个单词时,它将根据句子中单词的顺序和位置进行判断。现代LLM通常包含多层此类结构。
团队发现了层的复杂性与域大小之间的联系(即问题所需的位数)。
通过研究这个简单的模型,它们证明了数学约束。
如果单层的参数总数小于域的大小,则在理论上,不能求解组合任务。
LLM只有一层,在数学层面上存在明显的局限性。
尽管这是一个非常令人信服的理论成就,但其实际影响仍然不清楚,因为现代LLM要复杂得多。
因此,团队改变了学习更复杂能力的方法。他们利用计算复杂性理论来通过分析解决问题所需的时间,记忆和其他资源来探索问题的本质。
他们用著名的猜想确认,在解决复杂的组合问题时,即使是多层的计算能力也有局限性。
2024年12月,Peng 和加利福尼亚大学的研究人员伯克利出版了证书。这次,他们搁置了计算复杂性理论的猜想,并直接确认多层无法解决某些复杂的组合任务。
彭·宾豪(Peng )说:“在模型量表增加之后,它确实可以解决更具挑战性的问题。但是,如果同时扩大问题的量表,即使模型变得更大,仍然很难解决。”
这完全表明该体系结构具有无法克服的限制。
但这并不意味着LLM的结束。
纽约大学指出,尽管有这些局限性,研究人员已经开始改进,以帮助他们更好地解决包括算术在内的各种问题。
计算机科学家汤姆(Tom)及其马里兰大学的同事在输入数字时进行了一些调整,将其他位置信息嵌入每个数字并培训加法模型。
执行100位数量时,20位训练模型可以达到98%的稳定精度;而没有其他职位信息的模型仅约为3%。
这表明也许有一些基本的改进方法可以采用,以便在这些问题上可以取得重大进展,而无需重新设计整个架构。
除了扩大模型的规模外,还有一种克服LLM的局限性的方法,LLM的局限性在提示中为问题提供了分步解决方案,即思考链提示。
研究表明,此方法可以使LLMS(例如GPT-4)解决更多相关任务。
斯坦福大学的博士生Ye说:“我们很好奇为什么它如此出色,并且会带来如此多的突破。”
当他在北京大学学习本科生时,他比较了使用思维链来提示的表现。
他们使用了计算机科学的另一个分支,即电路复杂性的理论,证明了思想链如何将一个大问题分解为一系列小问题,从而允许更复杂的组合任务。
但是,你们还提醒您,这并不意味着该模型可以通过使用思考链提示真正解决这些问题。
这项研究的重点是理论能力,并且对模型的训练方式确定了他们可以在多大程度上发挥理论上极限的程度。
LLM本质上是以前已经看到的匹配模式,并且它们的能力在数学上受到限制。嵌入技术和思维链技巧只是扩大了处理更复杂模式匹配的能力。
从数学原理的角度来看,总是可以找到一些组合任务,这些任务很复杂,超过了给定系统的处理能力。
Dziri说:“我们必须弄清楚内部模型如何彻底工作。如果我们能弄清楚它们如何执行任务和原因,我们可以优化和改进它们。如果我们不知道,那真的很难做任何事情。”现在。”
作者的介绍
Peng 目前是加州大学伯克利分校西蒙斯研究所的博士后研究员。此前,他获得了哥伦比亚大学的博士学位,而主管是XI Chen和。他还获得了 的Yao班级学士学位。
Peng 拥有广泛的研究领域,涉及机器学习理论,游戏理论和理论计算机科学。最近,他特别注意计算理论与AI之间的相互作用。
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论