苹果的最新研究发现了蒸馏过程中学生模型与教师模型之间的幂律关系。
值得注意的是,在蒸馏过程中的教师模型不太强大。
他们发现,学生模型的损失总体下降,教师模型损失的下降,但是如果教师模型太强,那么学生模型的表现将会恶化。
而且,学生模型相对于教师模型的学习能力有一个转折点,教师模型在双方都提出了不同的权力关系。
根据一系列发现,作者还提出了有关模型蒸馏过程中计算资源分配的建议,从而帮助基于因素(例如学生模型的大小和可用资源)选择更好的分配方法。
大型蒸馏法
作者通过实验和数据拟合具有不同参数,蒸馏数据和不同能力的学生模型(在监督培训期间测量的损失)和教师模型,作者在蒸馏中发现了法律。
总体而言,学生模型的跨凝结损失LS取决于教师模型的横向渗透损失LT和学生模型的模仿能力。
学生模型的模仿能力是通过乘以三个部分来获得的,这些部分分别通过教师模型损失,教师学生模型之间的能力比率获得(LS带有波线的LS表示通过监督训练的学生模型的丧失)和数据量表NS,蒸馏数据DS是相关的。
至于公式中的C0,C1,D1,F1,α',β'和γ',它们都是需要根据实验结果拟合的参数(都是正数)。
也就是说,如果参数数量和蒸馏数据数量是固定的,则对于同一学生模型,教师模型是影响因素。
直观地,学生模型损失LS通常会随教师模型损失LT而减少。
但是,当教师的模型能力远远超过学生模型的能力时,继续提高教师的表现的边际效用,而学生模型的表现可能会变得更糟
公式中的D1是转折点,两面都遵守不同形式的权力定律 -
当学生模型参数NS和蒸馏数据DS同时倾向于无限时,知识蒸馏最终可以使学生模型的表现接近教师模型
如何分割蒸馏计算资源
基于上述发现,作者为论文中不同蒸馏情况提供了有效的计算资源分配建议。
其中,教师模型培训,教师模型推理和学生模型培训之间的主要资源分配。除了可用资源的数量外,主要影响因素是学生模型的大小。
此外,如果需要从头开始培训教师模型,并且仅用于蒸馏出一个学生模型,则直接监督所有资源对学生模型的培训将比蒸馏更好。
以1.82b参数培训的学生模型为例,当可用的数据量超过1T代币时,学生模型在理想情况下(左下)损失了监督学习的少于知识蒸馏。
知识蒸馏只有当总数据/计算量低于阈值时,随着学生模型的规模增加,并且教师模型已经存在或将被多次重复使用(在下面)。
作者个人资料
本文的作者主要来自英格兰剑桥的苹果实验室。
第一和通讯作者是Apple ML工程师Dan。他在学校学习物理学并拥有博士学位。在理论粒子物理学中。
但是自从他的第一份工作以来,Dan的工作与计算机有关。他首先在一家英国公司担任数据科学家,并于2016年开始学习机器学习,并于2020年加入苹果。
第二作者是一个实习生,他正在牛津大学博士学位,主修统计和机器学习。
第三个哭泣者来自AIML中的Pang 领导的基本模型团队。
还有杰森(Jason)和埃泰(Etai),两位高级工程师都在2017年加入苹果。
最古老的是Russ Webb,他是Apple的高级ML研究经理,早在2010年就加入了Apple团队。
当苹果的实验室在剑桥建立时,拉斯是研究负责人。
总体而言,该研究负责DAN,并且附录还引入了每个作者的具体工作。
纸张地址:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论