别再一遍又一遍地阅读这样的古董论文了,是时候更新你的论文列表了!
当前的人工智能从工程技术的角度可以分为十大领域:前沿大模型、基准评测、即时思维链、搜索增强生成、代理、代码生成、视觉、声音、图像/视频扩散、微调。每个领域评选发表5篇代表作及相关作品,阅读+实践=AI全栈高手!
尖端大型模型
此次发布,将大型车型带入了普通消费者的日常生活。其GPT系列机型一直是行业标杆。其中,GPT1/2/3、Codex、GPT4有论文,而GPT3.5、4o、o1和o3只有相关宣传活动。
GPT-4论文链接:
3和3被认为是最大的竞争对手,他们的论文也值得一读;该模型的最新版本是 3.5 和 2.0 Flash/Flash/Gemma 2.0。
论文链接:
另一个分支是开源模型Llama家族,可分为1/2/3代;家族树下的其他子型号包括7B和。
论文链接:
流行的V1、Coder、V2、V3在开源大型模型中也占有一席之地,并以低成本、高效率着称。
论文链接:
最后是Apple论文,部署在Mac和上。
论文链接:
其他非前沿模型也值得了解,包括AI2(其Olmo、Molmo、OlmOE、Tülu 3、Olmo 2)、Grok、Nova、Yi、Reka、Jamba、、Phi等; /2和RWKV都是可以在未来努力的。
基准和评估
MMLU Pro、GPQA 和 BIG-Bench Hard 是顶级 AI 实验室常用的知识基准评估。
MMLU-Pro论文链接:
MuSR主要评估自然语言叙述中的多步软推理任务,其特点是长上下文,其他基准包括,和RULER
论文链接:
MATH 主要关注数学竞赛,包括12,500道数学难题,每道题都有完整的分步解答,前沿研究集中在其子集MATH level 5、AIME、AMC10/AMC12
论文链接:
评估语言模型的指令跟随能力,主要关注“自动可验证的指令”,例如“写400字以上”和“至少提及人工智能3次”。总共25种指令类型,内置超过500条提示;提供其他底座 MT 工作台
论文链接:
ARC AGI使用一组抽象和推理语料库(和)来模拟人类来测试模型的智能。
论文链接:
提示、情境学习(ICL)和思维链
马里兰大学、斯坦福大学等13家机构的研究人员发布的《即时词报告》对即时技术进行了分类,并提供了即时工程的最佳实践和指南。这是目前最全面的即时工程审查报告。
论文链接:
Chain-of-:在足够大的语言模型中,只需在提示词中添加特定的模板,就可以引导大模型一步步思考,在各种算术、常识和符号推理任务中取得更好的结果。高性能,甚至比微调更有效。
论文链接:
思维树(Tree of)克服了思维链只能基于令牌并从左到右进行决策的缺陷,让语言模型通过考虑多种不同的推理路径和自我评估选项来决定下一步的行动,从而做出有意识的决定。决策,并在必要时展望或回顾以做出全局选择;
论文链接:
不调整模型参数,而是通过反向传播学习“软提示”,并且冻结的模型可用于多个下游任务。
论文链接:
自动提示工程师(APE)可以避免手动编写低质量提示词带来的性能影响,在指令候选池中进行搜索优化,并可用于自动生成和选择指令。最后,它在 19/24 任务上取得了比人工注释更好的性能。指令执行效果更好。
论文链接:
检索增强生成 (RAG)
RAG是2024 AI项目的核心。主要困难在于信息检索。可用的技术包括TF-IDF、BM25、FAISS、HNSW等。
2020年,Meta首次提出RAG概念,结合预训练参数和非参数记忆进行语言生成。非参数记忆是通过“Pre- ”访问“ Dense ”索引获得的,结果在三个开放问答任务上取得了最好的性能,生成的内容为更具体、更多样化、更真实。
论文链接:
利用文本嵌入(单词)来计算“语义文本相似度”是一种常见的检索技术。
METB 是一个大规模文本嵌入基准,包含 58 个数据集和 112 种语言。结果是没有一种文本嵌入方法能够主导所有任务。
论文链接:
传统的RAG无法处理“以查询为中心的摘要”任务,例如“数据集中的主题是什么?”此类全局问题的检索要求不明确。
可以根据用户问题的普遍程度和需要索引的源文本数量进行扩展,首先从源文档中导出实体知识图谱,然后为所有密切相关的实体组预先生成社区摘要;对于一个问题,每个社区摘要都会生成部分回复,最后汇总给用户。
论文链接:
推荐的RAGAS(检索增强生成评估)是一个无需人工注释的RAG流程无参考评估框架,可以评估“检索系统识别相关且有重点的上下文段落”的能力以及“LLM对检索到的文档的保真度”。
论文链接:
代理人
在被 Devin 和 Devin 采用后,SWE-Bench 成为最著名的代理基准测试(其他基准测试包括 SWE-Gym),由来自 12 个流行存储库的 2294 个真实问题和相应的拉取请求组成。软件工程问题组成。
给定一个代码库和一个需要解决的问题描述,语言模型的任务就是编辑代码库来解决问题。这通常需要同时理解和协调多个函数、类甚至文件之间的更改,要求模型能够与执行环境进行通信。交互、处理极长的上下文并执行复杂的推理,不仅仅是传统的代码生成任务,而且更多的是代理测试。
论文链接:
ReAct开始了“工具使用”和“函数调用”的一系列研究。通过与简单的维基百科 API 交互,它克服了思维链推理中常见的错觉和错误传播问题,并产生比没有推理轨迹的模型更好的结果。更具可解释性。
论文链接:
提出了虚拟上下文管理技术来智能地管理不同的存储级别,以在LLM的有限上下文窗口内有效地提供扩展上下文,并使用中断来管理其与用户之间的控制流。在文档分析和多会话聊天中表现出记忆、反思和动态演化能力。
论文链接:
它是第一个由大型语言模型(LLM)驱动的终身学习代理,可以不断探索世界,获得多样化的技能,并在无需人工干预的情况下做出新的发现。
它由三个关键组成部分组成:用于最大化探索的自动化课程;用于存储和检索复杂行为的不断增长的可执行代码技能库;以及新的迭代提示机制,结合环境反馈、执行错误和自我验证来改进程序。
论文链接:
通过黑盒查询与GPT-4交互,无需微调模型参数;所开发的技能具有时间可扩展性、可解释性和组合性,从而使智能体的能力能够迅速增强并减轻灾难性遗忘。
代码生成
Stack项目包含30种编程语言的许可源代码,大小为3.1TB。论文描述了数据集的收集过程;通过在不同子集上训练具有 3.5 亿个参数的解码器,它展示了如何从文本生成代码。潜力,仅使用许可数据就可以达到和MBPP中之前模型的性能,后续模型已发展为Stack v2和
论文链接:
开源代码模型论文包括-Coder、Qwen2.5-Coder;很多人认为3.5是最好的代码模型,但是没有相关论文。
论文链接:
/Codex论文是对底层技术的讲解和编码领域必备知识的基准测试;编码领域比较出名的是SWE-Bench,它可以评估大型语言模型解决现实世界中软件问题的能力:给定一个代码库和一个具体的问题描述,要求语言模型生成一个补丁来解决问题;其他替代方案包括 Aider、、、 和
法典论文链接:
代码生成问题与自然语言生成问题不同。它需要准确匹配目标语言的语法,识别常见路径和边缘情况,并更加关注细节。
论文提供了一种基于测试的、多阶段的、面向代码的迭代过程的通用解决方案,可以提高 LLM 在代码问题上的性能,将 GPT-4 在验证集上的性能从 19% 提高到 44%
论文链接:
主要关注代码生成中的安全问题,可以帮助人类更准确地评估模型编写的代码;使用 RLHF 训练模型来编写自然语言反馈;实验发现,该模型在 63% 的情况下表现优于人类批评,成功识别了训练数据中数百个标记为“完美”的 bug,其中许多是分布之外的“非编码任务”。
论文链接:
视觉模型
YOLO并不是一个大型的基于模型的工作,但它仍然非常重要。已经更新到v11了。许多基于DETR的模型目前已经超越了YOLO的性能。
YOLO v1 将目标检测视为回归问题,即预测空间分离的边界框及其相关类别概率。可以通过神经网络直接从整幅图像中预测边界框和类别概率,并且可以对训练过程进行端到端优化。
基础YOLO模型预测速度可以达到每秒45帧,小型网络Fast YOLO可以达到每秒155帧,平均精度是其他实时检测器的两倍。
论文链接:
CLIP模型是第一个成功的ViT模型,现已被BLIP/BLIP//取代。
CLIP直接从原始文本中学习关于图像的表示,监督信号的来源比“固定的、预设的对象类别”更广泛;训练任务也很简单,在 4 亿张(图像、文本)数据中预测图像描述匹配哪张图像,实现与原始 -50 相当的零镜头精度;在 30 多个计算机视觉基准任务中,性能与完全监督的基线模型相当,无需特定于数据的训练。
论文链接:
MMVP(多模态视觉模式)基准量化了 CLIP 的核心问题:视觉信息足以应对口头描述吗?
论文链接:
论文探讨了 CLIP 的视觉嵌入空间和仅视觉自监督学习之间的差距,揭示了多模态模型和 CLIP 的视觉模式高度相关,并且经常给出错误的答案和幻觉的解释。
Model (SAM) 和 SAM 2 是非常成功的图像和视频分割基本模型,通常与 SAM 结合使用。
研究人员在 SAM 中构建了迄今为止最大的分割数据集,包含超过 10 亿个掩模和 1100 万张授权图像;该模型具有零样本学习能力,可以直接迁移到新的图像分布和任务,其性能与之前的完全监督模型表现相当甚至更好。
论文链接:
声音模型
相当成功的ASR模型,后续的v2、v3、v3 Turbo版本都有开放权重但没有论文。
论文链接:
之前PaLM成为在语音领域的绝唱。
将基于文本 (PaLM-2) 和基于语音 (PaLM-2) 的语言模型集成到一个统一的多模式架构中,可以处理和生成文本和语音。下游应用包括“语音识别”和“语音转语音翻译”;继承了保留说话者身份和语调等副语言信息的能力,以及 PaLM-2 等大型基于文本的语言模型特有的语言知识。
论文链接:
Meta发布的Llama 3语音模型也可以作为竞品的参考。
论文链接:
它是领先的“语音合成”(TTS)方法之一,最新版本是v3
在论文中,研究人员首先根据主观测量的统计显着性定义了“人类水平”的语音合成质量,然后使用变分自动编码器(VAE)进行端到端文本到波形的生成,并通过多个模块进行增强。从文本中进行先验学习的能力,并降低从语音中进行后验学习的复杂性,包括音素预训练、可微时长建模、双向先验/后验建模以及 VAE 中的记忆机制。
论文链接:
图像/视频扩散模型
绝对是最著名的开源图模型,而且还有SD2、SDXL、SD3模型和论文。
该模型首次将扩散模型应用到预训练自动编码器的潜在空间中,大大降低了扩散模型的训练、微调和推理的成本。它可以在降低复杂性和保留细节之间达到最佳平衡,并提高视觉保真度。
论文链接:
通过将交叉注意力层引入模型架构,扩散模型成为通用条件输入生成器,可以处理文本或边界框以进行高分辨率合成。
DALL-E系列图模型已经有三代了,它的论文也值得一读。
DALL-E 3论文链接:
的图模型已经三代,后续工作是2.0
3篇论文:
一致性模型论文是后续工作LCMs( Model)的基础,解决了迭代采样导致生成缓慢的问题:直接将噪声映射到数据生成高质量样本,并利用多步采样来提高效率。但样本质量略有下降;同时支持零样本数据编辑,例如图像修复、着色和超分辨率,无需显式训练,最新版本是sCMs
论文链接:
虽然目前还没有关于文本转视频模型Sora的论文,但其底层原理DiT和开源模仿者可以作为参考。
DiT 用具有更高 FID 距离分数的潜在块取代了常用的 U-Net 主干网络,该分数可以通过增加深度/宽度或增加输入令牌数量进一步降低,在类别条件和基准扩散模型中超越了之前的所有分数。
DiT论文链接:
扩散模型还可以应用于其他模式,例如文本、音乐
微调
使用LoRA/QLoRA对本地模型和4o模型进行微调已被证明是一种低成本的微调方法。
QLoRA论文链接:
QLoRA 通过冻结 4 位量化预训练语言模型和低秩适配器(LoRA)来实现反向传播,可以在单个 48GB GPU 上微调 650 亿个参数模型,同时保持 16 位微调上的性能任务;最好的模型仅经过 24 小时的微调就达到了 99.3% 的性能
该论文还详细分析了聊天机器人基准测试的局限性,证明 GPT-4 评估是人类评估的一种廉价且合理的替代方案。
DPO(直接偏好优化)是 PPO(邻近策略优化)的替代方案。开发者更喜欢使用DPO,但其性能稍差,因此也选择DPO作为首选微调方式。
DPO 论文链接:
基于人类反馈的强化学习(RLHF)是一个复杂且不稳定的过程,需要首先训练反映人类偏好的奖励模型,然后通过强化学习对大型无监督语言模型进行微调。
DPO 是一种新的奖励模型参数化方法,可以通过简单的分类损失来解决标准 RLHF 问题。它稳定、高效且计算成本低,无需从语言模型中采样或在微调期间执行大量超参数调整。 ;在控制生成的内容以符合人类偏好方面,DPO 优于基于 PPO 的 RLHF
ReFT( Fine-)不关注某些层,而是关注特征:在冻结的基础模型上进行操作,学习特定任务对隐藏表示的干预,它可以取代现有的参数高效微调(PEFT)方法,学习到的干预措施比 LoRA 有效 15 到 65 倍。
论文链接:
Orca和Orca2项目证明,使用“合成数据”来训练小语言模型可以极大地提高模型性能;
Orca 3-的研究成果将这一结论更进一步:开发了一个框架,可以从原始数据源大规模生成多样化且高质量的定制数据集(包括用户提示和模型响应),最终吸收的能量增加了 40 % 在 MMLU 上,19% 在 MMLU 上,54% 在 GSM8K 上;论文披露了 100 万个数据对。
举报链接:
尽管o1模型使用的强化学习微调仍然存在争议,但Let's Step by Step论文提供了部分底层原理的解释。
在复杂的多步推理中,研究人员发现“过程监督”明显优于“结果监督”,可以解决 MATH 测试集中 78% 的问题;主动学习( )还可以提高过程监督的有效性;文章中公布的数据集,包含80万个“阶梯级”人类反馈标签。
论文链接:
微调练习:
参考:
本文来自微信公众号“新智元”,编辑:LRS,36氪授权发布。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论