当前的(多模式)大型模型处于“数据饥饿”的困境中:它们的性能高度依赖于在训练阶段中支持大量高质量(图形对准)数据的支持。
但是,这种高价值数据资源在现实世界中迅速耗尽,依靠真实数据驱动的模型功能的传统途径不再可持续。
在2024年会议上,联合创始人ILYA清楚地指出:“众所周知,这将结束”,这一判决明确警告了传统的准备工作的局限性。
为了继续提高绩效,主流研究方向已开始转向推理优化和培训后微调(例如增强学习)。
但是,最新的研究表明,这种改进极大地依赖于模型预训练的能力:如果该模型在早期阶段没有系统地获得相关能力,那么随后的优化就像在沙子上建造高层建筑物一样,进度是有限的,风险很高。
在“自我进化”能力中,不同模型的性能也存在很大差异,它们的本质仍然是“问题策略”的扩展:没有方法学支持的培训很难应对现实世界中的复杂性和变化。
面对这种瓶颈,大型模型的未来路径在哪里?
的科学家Shah在社交媒体上指出,合成数据可能是破坏当前功能上限的关键。
最近,香港和中国与诸如大学等大学一起提出,将来大规模模型的持续改进将取决于“在推理阶段进行预训练,计算阶段的计算扩展以及培训后优化”的深入协调。这种观点打破了依靠单个预训练路径的传统范式,并为建造下一代多模式基本大型模型(MLLM)提供了新的想法。
纸链接:
在此基础上,研究团队提出了一个创新的框架-Sicog(In -in),旨在重塑大型模型的进化路径。 SICOG介绍了原始的“链条描述”技术,并通过五步的渐进视觉分析引擎,该模型从重要的内容捕获到细粒度的相关性推理中实现了全面的感知飞跃。
该框架还采用了“结构化思维链”机制,有效地增强了模型的融合处理和多模式信息的复杂推理能力。更加突破的是,SICOG使用自我生成的数据封闭循环 +语义一致性筛选机制,使模型能够在零手动注释下实现认知能力的连续演变,并真正朝着有效且自主的学习范式迈进。
SICOG的建议不仅打破了当前模型的数据分离,计算能力和微调优化的瓶颈,而且还为建造未来通用人工智能(AGI)模型的构建提供了新的途径。
SICOG:三位一体协同框架,让模型学会“进化”
传统的多模式大型模型(MLLM)依赖于大量标记的数据和静态的预训练范例,并面对数据稀缺的双重瓶颈和有限的能力增长。为了解决这一难题,本文提出了一个新的框架SICOG(自我),该框架构建了一种涵盖“训练后增强 - 推断优化 - RE-PRE-PRE训练增强”的机制,重新定义了训练前的界限,并注入了动态认知和连续的学习能力,并将其连续学习到下一代Mllms。
SICOG的三阶段协作机制包括:
训练后增强:使用少量高质量标记的数据来提高模型的系统认知和基本推理能力;
推理优化:对大规模标签的多模式数据执行自主推断,通过“自洽的投票机制”过滤出高置信度答案,并自动生成伪标记;
重新训练加强:筛选的高质量伪通用数据反馈用于预训练,以实现模型能力的连续演变。
SICOG的关键创新在于实现模型的“实践学习和进化实践”:从少量种子数据开始,该模型通过“图片摘要 +解决问题的推理”来积极构建多任务样本,以实现数据生成和学习的封闭环节。可以在没有大规模手动注释的情况下有效扩展预训练的数据,从根本上减轻了当前高质量多模式数据的稀缺性。
鳕鱼链
让模型“像人类一样看图像”
COD(描述链)是一种结构化的逐步感知方法,它允许模型像侦探一样逐图观察图像,从受试者到详细信息,从关系到背景,构建一个完整且逻辑上严格的图像理解过程。
以“女孩弹吉他”的形象为例,传统模型只能产生对“弹吉他”的粗略描述,而鳕鱼将分为五个有序的阶段,以逐渐加深理解:
提取主题内容:首先,确定图像的核心语义元素,例如:“一个红头发的女人坐在床上,手臂上握着原声吉他”,以确保模型清楚地掌握了主要物体,并为后续分析奠定了基础。
分析详细信息:进一步观察详细的属性,例如“吉他是经典的木制风格,带有浅色的指板,具有柔和的光线和温暖的氛围”,捕获了低级信息,例如纹理,色彩,浅色,光和阴影,并增强描述的丰富性和准确性。
考虑关系属性:描述图像中元素之间的相互作用,例如:“她坐在床上,笔记本上的笔记本放在一张小桌子上,带有光弦和悬挂装饰品装饰背景”,增强了空间布局和语义结构的建模。
检查边缘/背景内容:不要忽略辅助信息,例如:“有背景元素,例如敷料桌,墙壁装饰等”,补充现场语义并提高整体理解。
集成到连贯的描述中:上述观察结果被组织成一个完整的,逻辑上清晰的自然语言描述。
通过COD,该模型可以逐渐“构建图像语义结构”,从感知到理解,并显着提高图形和文本对齐的质量和逻辑。
结构化解决问题的想法(链,COT)
让模型“解决顶级学生之类的问题”
COT(结构化思维链)是一个任务驱动的推理框架,它支持该模型在面对复杂问题时逐步推理,信息集成和因果判断。它广泛用于数学计算,逻辑问答,跨模式推理和其他任务。
例如,在几何问题中,传统模型可以直接尝试“猜测答案”,而COT解决问题的过程如下:
澄清任务目标:确定问题的类型,例如“找到三角形的一侧的长度”。
提取关键信息:提取必要的条件,例如右角三角形,垂直线和图像的侧面长度。
逻辑推理分析:判断类似三角形之间的关系,列出比例公式并替代数值。
摘要计算并获取解决方案:通过计算确定答案,例如“选项C”。
COT允许模型具有类似人类的“解决问题的技能”,这不仅可以处理复杂的数学任务,还可以支持跨模式的因果推理,为模型认知系统化奠定了基础。
能力的全面跳跃:SICOG的三个关键优势
在COD和COT的帮助下,SICOG不仅构建了结构化的感知和推理过程,而且还取得了培训范式的基本突破,具有以下三个核心优势:
显着降低对高质量数据的依赖性:只能启动少量的种子数据,并且可以通过自生成的数据循环优化实现大规模多模式数据的“零标签”扩展。
实现动态的认知演化:打破“一个训练决定终生”的传统训练模型,并支持该模型在使用过程中不断学习和升级其能力,并具有“终身学习”的特征。
感知和推理的综合优化:不再限于改善感知能力。 SICOG在预训练阶段集成了“感知 +推理”,以模拟人类的认知过程,以使模型具有更强的概括和对复杂任务(例如图形和图形)的适应性。
实验验证:SICOG实现了模型功能的全面改进
为了验证SICOG框架的有效性,该研究对12个主流多模式评估集进行了系统的评估,涵盖了多个关键维度,例如图表理解,数学推理和抗氧化度能力。实验结果表明,SICOG可以显着提高模型的全面性能,并且具体结果如下:
稳步改善整体表现
增强的幻觉控制能力
自我生成的数据驱动持续发展
超越主流训练方法
实验还表明,基本模型的性能越强,其在自我进化过程中的能力越重要。例如,llava-qwen2-7b-uhd的性能提高比llava-.1-8b-uhd高约50%。这表明,强大的基本能力不仅确定了模型的初始性能,而且还显着增强了其随后的自学习和优化能力。
这种现象类似于人类学习中的“马修效应” - “顶级学生更擅长自学”。具有更好初始结构和知识表示的模型可以更有效地使用数据,刺激潜力并在连续演变中取得更大的进步。
该研究进一步表明,基于合成数据的预训练显着提高了模型的基本认知能力,从而增强了随后的微调效果。该结果再次验证了在推理阶段的训练,计算扩展与训练后优化之间存在高度协同作用。只有通过打开这三个链接,我们才能实现模型能力和有效演变的连续飞跃。
此外,研究发现,SICOG生成的合成数据还遵循规模定律:模型能力随着数据量的增加而继续增加。这进一步证明了模型演变中自构数据的有效性和可扩展性。
研究人员提出了一种变体方法:在第一阶段的训练后增强中,用偏好学习()替换传统监督的微调(SFT),以进一步增强模型的基本能力。
实验结果表明,在改善模型概括功能时,尤其是在处理复杂的任务时,首选学习比SFT更好。从经验上讲,这一结果验证了一种长期的观点,即强化学习范例比在特定任务中进行的微调具有优势。
细粒度的图像感知能力显着增强,在详细识别和关系属性捕获中显示出更高的准确性和鲁棒性。
多模式的理解和推理能力得到了显着提高。
前景:预训练的新领域 - 从静态训练到动态进化
通过构建涵盖“数据生成→模型训练→能力演化”的闭环系统,SICOG突破了传统的预训练对高质量人造标记数据的依赖,显示了类人体认知发展的潜力。该框架不仅实现了模型的自学和连续优化,而且还为朝着真正独立的学习推动者迈出了坚实的基础。
在当前的研究中,SICOG通过引入(COD)和结合链(COT)推理机制来显着增强多模型模型的感知和推理能力。但是,这个进步仍然只是完全独立学习的起点。
将来,如果可以进一步引入环境反馈机制(例如体现的智能场景)和持续优化机制,则该模型将有能力为生活学习并实现从“被动学习”到“积极成长”的过渡。在与环境的持续互动中,该模型不仅可以使用其生成的自我优化数据,而且还可以主动识别知识盲点并动态调整学习策略,从而在复杂的任务和不断变化的环境中不断发展和改进。
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论