据官网介绍,将有一系列全新的推理()模型面世。这一系列模型将用于解决难题。这些模型在做出反应之前会花更多时间思考,并能通过复杂的流程进行推理,从而解决比以往更困难的科学、编码和数据问题。此次,该系列的预览版o1-将在API接口渠道上线。
“这是复杂推理任务的重大进步,代表了人工智能能力的新水平。因此,我们将‘计数器’重置为1,并将新系列命名为o1。”首席执行官山姆·奥特曼(Sam )也在社交平台上表示,新模型是一个新范式的开始,即AI可以进行一般的复杂推理。
o1包括三种模型,除了o1-还会有o1和o1-mini。其中o1-mini是更快更便宜的推理模型,适合需要推理但不需要广泛世界知识的应用。o1-mini也比o1-便宜80%。
从技术上讲,新系列模型经过训练可以改善其思维过程并尝试不同的策略,并识别其错误。新系列模型的更新性能与博士生完成物理、化学和生物学具有挑战性的基准任务的性能相似。新系列模型在数据和编码方面也表现出色,在国际数学奥林匹克 (IMO) 资格考试中得分为 83%,而 GPT-4o 仅正确解决了 13% 的问题。新系列模型在竞争性编程问题竞赛中也排名前 89%。
在技术研究相关文章中,介绍该公司在高效训练数据时,采用大规模强化学习算法“教”模型用思维链高效思考。随着强化学习的加强和思考时间的增加,O1的表现不断提升。与人类在回答难题前会长时间思考类似,O1在解决问题时也尝试使用思维链。模型通过强化学习学会磨练思维链、改进策略,学会在当前方法不起作用时尝试不同的方法,从而提高模型的推理能力。
“作为早期模型,让它变得更加有用还很困难,比如浏览网页获取信息或上传文件和图片。对于很多常见情况,短期内 GPT-4o 还是更胜一筹。” 说道。不过,这一系列新模型增强的推理能力可能更有助于解决科学、编码、数学和类似领域的复杂问题。例如,医疗研究人员可以用它来注释细胞测序数据,物理学家可以用它来生成量子光学所需的复杂数学公式,开发人员可以用它来构建和执行多步骤的工作流程。量子物理学家 Mario Krenn 演示了 GPT-4o 无法回答但能正确完成计算的复杂量子物理问题。
研究员Noam Brown在社交平台上提到了o1系列的更多细节。他表示,o1系列经过强化学习训练,会通过自己的思维链在做出反应之前进行思考。思考时间越长,推理任务表现就越好。“这为大型模型扩展开辟了一个新的维度()。我们不再受限于预训练的瓶颈,现在我们还可以扩展推理计算。”Noam Brown表示,o1模型并不总是比GPT-4o更好。有时人们长时间等待o1做出反应并不值得。人们在个人撰写和编辑文本时可能更喜欢GPT-4o,在计算机编程、数据分析和数学计算等领域可能更喜欢o1。
Noam Brown 透露,o1 会思考几秒钟后再回答,但目标是让未来版本思考数小时、数天甚至数周。虽然推理的成本会更高,但人们的收获也可能更多。例如在新型抗癌药物研发中,人工智能可以发挥的作用可不止是聊天机器人。
不过并非所有用户都能立即使用新系列机型,据悉Plus用户和Team用户最早可在几个小时内体验到新机型。o1-每周限量30条消息,o1-mini每周限量50条消息。下周开始,企业用户和教育(Edu)用户也将能够访问这两款机型。该系列机型的API访问权限将首先提供给Tier 5用户。此外,计划向所有免费用户提供o1-mini访问权限。后续计划增加浏览、文件和图片上传等功能,并继续开发和发布o1系列之外的GPT系列其他机型。
安全性方面,据透露,新模型的思维链推理提供了确保对齐和安全的新机会,而隐藏的思维链则为监控模型提供了独特的机会,使人们能够“读懂模型的思想”,了解其思维过程。此外,该公司最近与美国和英国的人工智能安全研究所达成协议,开始实施相关协议,包括允许机构尽早使用该模型的研究版本,这将有助于建立在公开发布之前和之后研究、评估和测试未来模型的流程。
本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论