2022年11月30日,一家不知名的公司()悄然推出了一款产品。当时没有人想到这款产品在短短几个月内就风靡全球;而2023年3月14日GPT-4的发布引发了一波生成式人工智能(AIGC)技术革命。对于普通人来说,面对这个给生产生活带来巨大改变的人工智能产品,不禁产生无数疑问:
●为何如此受关注?
●其原理是什么?
●它真的拥有人类智慧吗?
●它将给人类社会带来哪些变化?
……
原理概述:
单词接龙
最令人印象深刻的能力是它可以通过对话回答用户的问题。那么回答问题的原则是什么呢?传统的问答系统本质上是基于数据库和搜索引擎的,即通过网络中的搜索引擎和数据库搜索相关信息,并将结果直接返回给用户。比如我们用百度搜索“机器学习原理是什么”,百度就会跳转到各种网站。这些网站很早以前就由各个公司开发,百度只是根据相关性对它们进行排名。
与传统问答系统的答案来自现成的网络或数据库不同,答案是在提出问题时自动生成的。这有点像单词接龙游戏,会根据前面的单词继续生成下一个合适的单词,直到感觉不需要继续生成为止。
例如,如果我们问:“苹果是一种水果吗?”,我们会根据这句话进行文本接龙。大致流程如下:
(1)考虑下一个可能的单词及其对应的概率,如右表所示(为了便于理解,只写了3种可能的形式)。
(2)根据上述概率分布,将选择概率最高的答案,即“是”(因为它的概率为0.8,明显大于其他选项)。
(3)这时候这句话的内容就变成了“Apple是一种水果吗?是”,你就会看下一个可能的单词以及对应的概率。
不断重复此步骤,直到得到完整的答案。
从上面的例子可以看出:
(1)与传统基于数据库或搜索引擎的问答不同,在用户输入问题后,答案会随着问题自动生成。
(2)这种生成本质上是在做文字接龙。简单来说,就是不断地在所有可能的词中选择概率最大的词来生成。
一些聪明的读者会有一个疑问:你怎么知道选择什么词,以及如何给出每个可能词的概率?这就是机器学习技术的魔力。
机器学习的核心:
通过模仿人类来学习
这是机器学习的一个非常典型的应用。那么什么是机器学习呢?
机器学习的总体思路是借鉴人类学习的过程。人类观察和总结客观世界的实际情况,并从中学习相关规律。当面对未知的情况时,他们会运用所学到的规律来解决未知的问题。同样,我们希望计算机能够从海量数据中自动发现某些“模式”,并将这种模式应用到一些新的问题上。这种模式在机器学习领域称为“模型”,学习过程称为训练模型。
机器学习和模型训练卡通插图
关于模型训练,所有机器学习模型背后其实都有一个假设:学习的规则可以用数学来表达。机器学习的核心是找到一种方法来找到一个数学函数,使得这个函数尽可能接近现实世界的数学表达式。然而,很多时候人类并不知道真正的数学表示是什么,也无法通过传统的数学推导来获得;人类唯一拥有的就是一堆来自真实情况的数据。机器学习的方法就是利用这些数据(训练数据)来训练我们的模型,让模型自动找到更好的近似结果。比如在人脸识别的应用中,我们想要找到一个函数。这个函数的输入是一张人脸照片,输出是判断这张照片对应的是哪个人。然而人类并不知道人脸识别功能是什么,所以他们拍了很多人脸的照片,并标记出每张人脸对应的人,然后交给模型进行训练,让模型能够自动找到更好的人脸。人脸识别功能。这就是机器学习的作用。
神经网络和神经元:
可扩展的数学表达能力
理解了什么是机器学习之后,另一个概念是机器学习模型的数学表达能力。机器学习模型本质上是希望尽可能接近现实世界中的相应功能。然而,就像我们不能指望仅仅通过几条直线就能画出精美的艺术品一样,如果机器学习模型本身比较简单,比如高中时学过的线性函数
Y=kx+b
那么无论如何也不可能学习复杂的函数。因此,机器学习模型的一个重要考虑因素是模型的数学表达能力。当面对复杂的问题时,我们希望模型的数学表达能力尽可能强,这样模型才能很好地学习。
在过去的几十年里,科学家们发明了许多不同的机器学习模型,其中最有影响力的是一种称为“神经网络”的模型。神经网络模型最初是基于一种生物现象:人类神经元的基本结构非常简单,只能做一些基本的信号处理工作,但最终大脑却可以完成复杂的思维。受此启发,科学家们开始思考是否可以构建一些简单的“神经元”,通过神经元的连接形成网络,从而产生处理复杂信息的能力。
基于此,神经网络的基本单元是神经元模型,只能进行简单的计算。假设输入数据有 2 个维度 (x1, x2),则该神经网络可以写为
y=σ(w1x1+w2x2+b)
从神经元到神经网络 (a) 神经元架构(生物学); (b) 基本神经元架构(人工智能); (c) 简单的多层感知器。
上述神经元的数学表达能力很弱,只是简单的线性函数和激活函数的组合;但我们可以轻松地使模型变得更强大,解决方案是添加更多“隐藏节点”。此时,虽然每个节点仍然进行非常简单的计算,但组合起来其数学表达能力就变得非常强。有兴趣的读者可以尝试类比上式,写出下图中简单的多层感知器对应的公式,会得到一个非常复杂的公式。该模型也是未来深度学习的基础模型,即多层感知器[1]。
多层感知器的原理很简单,但是通过它你可以更好地理解神经网络的原理:虽然单个神经元很简单,但是大量节点的组合可以赋予模型非常强大的数学表达能力。此后深度学习的整个技术路线在某种程度上走的是开发和训练更大、更深的网络的道路。
深度学习的新范式:
预训练+微调范式与规律
深度学习领域自2012年以来蓬勃发展,更大、更深、更好的模型不断涌现。然而,随着模型变得越来越复杂,从头开始训练模型的成本也越来越高。那么有人问,我们能不能不从头开始训练,而是在别人训练好的模型的基础上进行训练,从而以更低的成本达到更好的效果呢?
例如,科学家们分割了一个图像分类模型,希望研究深度学习模型中这么多层学到了什么[2]。发现越接近输入层,模型学习的基础信息就越多,比如边缘、角点、纹理等;越接近输出层,模型学习到的高级组合信息就越接近,比如公鸡的形状、船的形状等等。这不仅在图像领域如此,在也涉及自然语言和语音等许多领域。
深度神经网络中不同层的输出一般是接近输入层(左侧)的基本信息,一般是接近输出层(右侧)的特定物体等信息[2]。
基本信息往往是领域通用信息,如图像领域的边缘、角点、纹理等,应用于各类图像识别;而高级组合信息通常是特定领域的信息,例如猫的形状,仅用于动物识别任务。只对人脸识别任务有用,但对人脸识别任务没用。因此,一个自然的逻辑是通过领域内的通用数据来训练通用模型,主要是学习领域内的通用信息;当面对特定场景时,只需要使用场景数据进行小规模训练(微调)。 。这就是著名的预训练+微调范式。
预训练+微调范式的出现和普及对该领域产生了两大影响。一方面,在现有模型的基础上进行微调,大大降低了成本;另一方面,良好的预训练模型的重要性变得更加凸显,因此各大公司和科研机构更愿意花费大量资金来训练更昂贵的基础。模型。那么大模型的效果与哪些因素有关呢?著名的定律是在2020年提出的,即当模型规模变大时,模型的效果主要受模型参数规模、训练数据规模和所使用算力规模的影响[3] 。
Law的积极一面是为提高模型效果指明了方向。只要把模型和数据规模做大就可以了。这就是为什么近年来大型模型规模呈指数级增长,而基础计算资源图形处理器(GPU)始终供不应求;但Law也揭露了一个让很多科学家绝望的事实:那就是模型的每一步改进都需要人类用极其夸张的计算能力和数据成本来“交换”。大型模型的成本门槛变得非常高,从零开始训练大型模型对于学术界来说已经成为一种奢侈。以谷歌、Meta、百度、智普AI等公司为代表的行业已经开始发挥主导作用。
GPT的愿景:
情境学习和提示词工程
除了希望通过训练大规模模型来提高性能之外,GPT模型在发展过程中还有一个非常雄心勃勃的野心:情境学习(in-)。
如上所述,在过去,如果我们想让模型“学习”一些东西,我们需要使用大量的数据来训练我们的模型;即使是上面提到的预训练+微调范式,仍然需要在模型的基础上,使用一小批数据进行训练(即微调)。因此,过去“训练”一直是机器学习中的核心概念。但也有人指出,培训本身既有成本,也有门槛。希望模型在面临新任务时不需要额外的训练。你只需要在对话窗口中给模型一些例子,模型就会自动学习。这种模型称为情境学习。
举个汉英翻译的例子。以前做中英翻译需要使用海量的中英文数据集来训练机器学习模型;在上下文学习中,如果你想完成同样的任务,你只需要给模型一些例子,比如告诉模型以下内容:
以下是一些汉译英的例子:
我爱中国→我爱中国
我喜欢写代码 → 我喜欢
人工智能很重要 → AI 是
现在我有一个中文句子,请把它翻译成英文。这句话是:“我今天想吃一个苹果。”
这时候,原来“傻”的模型突然有了翻译能力,可以自动翻译了。
有使用经验的读者会发现,这个输入是提示词()。在它的使用相当普遍的今天,很多人并没有意识到这个东西有多么神奇。这就像找一个从来没有学过英语的孩子,给他看几句从中文翻译成英文的句子。然后孩子就能流利地将中文翻译成英文。要知道这个模型从来没有专门在中英翻译数据集上训练过,这意味着该模型本身并不具备将中文翻译成英文的能力,但是它却通过一些例子突然“开悟”了中文和英文对话。翻译一下,这真是太神奇了!
上下文学习的相关机制仍然是当今学术界的热门话题,而正是因为GPT模型具有学习上下文的能力,所以一个好的提示词就显得非常重要。提示词工程逐渐成为一个热门领域,甚至还出现了一个新的职业,叫做“提示词工程师”(),就是通过写出更好的提示词来发挥更大的作用。
原理总结如下:
(1)本质是玩文字接龙游戏。在游戏中,它会根据候选词的概率选择下一个词。
(2)它的背后是一个非常大的神经网络。例如,GPT-3有1700亿个参数(训练成本超过100万美元)。
(3)基于庞大的神经网络,当面对一个句子时,模型可以准确给出候选词的概率,从而完成文本接龙操作。
(4)这种大规模进行语言处理的模型也称为大语言模型(large model)。
(5)以GPT为代表的大型语言模型具有学习上下文的能力,因此一个好的提示词至关重要。
参考:
[1] DE、EG、R J. by back- 。 ,1986,323(6088):533–536。
[2]魏德林,周宝林,A,等:A至从深. (2015)[2024-07-05]。
[3] J、S、T 等。的法律。 arXiv arXiv:2001.08361,2020。
[4] 赵文新,周坤,李杰,等。一个大的。 arXiv arXiv:2303.18223,2023。
[5] Boiko DA, R, Kline B 等人。与大 . , 2023, 624(7992): 570-578。
关键词:机器学习 神经网络 大模型 多模态智能体
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论