首页 » 财经投稿 » 正文

EMNLP 2024 最佳论文奖揭晓，华人学者参与三篇，中科院成果瞩目

2024-11-15 82

进不了网站？换个网络试试！

量子比特 |公众号

刚刚，EMNLP 2024年度最佳论文奖已经揭晓！

上榜的5篇论文中，中国学者参与了3篇，分别来自卡耐基梅隆大学、上海交通大学、中国科学院大学等机构。

其中，Data for Large: A-based主要由中国科学院网络数据科学与技术重点实验和中国科学院大学的学者完成。

张是第一篇论文的作者；通讯作者郭家峰，现任中国科学院网络数据科学与技术重点实验室常务副主任。

本研究提出了一种新的数据集和方法，用于检测给定文本是否是LLM预训练数据的一部分，有助于提高LLM训练数据的透明度。

EMNLP'24今年共收录论文2,978篇，较去年增长5%，其中主要会议论文2,455篇，论文523篇。

除了最佳论文外，还公布了优秀论文，超过一半的中国学者参与。

对了，EMNLP 2025将于明年11月5-9日在中国苏州举行！

国内学者可以搓手准备一下啦~

接下来，康康获奖论文具体有哪些呢~

上海交通大学、CMU等团队荣获最佳论文

此次共有5项研究成果荣获EMNLP'24最佳论文奖。

1.一个图像一个词，但是可以吗？图像上为

（图像说千言万语，但每个人都能听吗？论图像再创造的文化相关性）

卡耐基梅隆大学的这篇论文研究了跨文化图像再创造的任务。鉴于多媒体内容的兴起，翻译需要涵盖图像等形式。传统翻译仅限于处理语音和文本中的语言，跨文化的再创造应运而生。

作者构建了三个包含SOTA生成模型的管道：e2e-直接编辑图像，cap-edit通过字幕和LLM处理编辑后的图像，cap-利用编辑后的字幕检索图像，并创建概念和应用评估数据集两部分。

结果发现，当前的图像编辑模型都无法胜任这项任务，但可以通过利用循环中的法学硕士和检索器来改进。

2. 对于的

（为数千种语言提供强大的语音表示学习）

这篇来自 CMU、上海交通大学和芝加哥丰田理工学院的论文介绍了一种名为 XEUS 的跨语言通用语音编码器，旨在处理多种语言和声学环境中的语音。

通过整合现有数据集和新收集的数据，该研究构建了包含 4057 种语言和超过 100 万小时数据的预训练语料库，并提出了新的自监督任务（声学去混响）来增强模型鲁棒性。研究结果表明，XEUS 在多个下游任务中表现良好，在 ML- 测试中超越了其他模型，例如在多语言自动语音识别任务中实现了 SOTA，并且在语音翻译和语音合成等任务中也表现良好。。

团队一半以上是中国人。作者之一陈目前是卡耐基梅隆大学语言技术学院的硕士生。他之前获得了佛罗里达大学计算机科学和历史学学士学位。

3. 镜头：模型进入太空

（逆透镜：将语言模型梯度投影到词汇空间）

了解基于语言的模型如何学习和回忆信息成为该行业的关键目标。最近的可解释性方法将前向传递获得的权重和隐藏状态投影到模型的词汇中，有助于揭示信息在语言模型中的流动方式。

以色列理工学院和特拉维夫大学的研究人员将这种方法扩展到语言模型的后向传播和梯度。

首先证明梯度矩阵可以被视为前向和后向传递输入的低秩线性组合。然后，我们开发了将这些梯度投影到词汇项中的方法，并探索了新信息如何存储在语言模型神经元中的机制。

4. 大数据：基于 A

（大型语言模型的预训练数据检测：基于的校准方法）

该论文作者分别来自中国科学院网络数据科学与技术重点实验、中国科学院大学、中关村实验室、阿姆斯特丹大学。

通讯作者郭家峰，现为中国科学院计算技术研究所研究员、中国科学院大学教授、北京人工智能研究院研究员、中科院重点实验室主任中国科学院网络数据科学与技术.目前的研究方向是信息检索（IR）和自然语言理解的神经模型。

他们的研究旨在解决大型语言模型预训练数据检测的问题。由于模型开发人员不愿意透露训练数据细节，现有方法在判断文本是否为训练数据方面存在局限性。

为此，他们提出了DC-PDD方法，通过计算文本的词概率分布和词频分布的交叉熵（即散度）来标定词概率，从而判断文本是否在模型预训练中。 - 训练数据。在、、和新建的中国基准上进行了实验。结果表明，DC-PDD在大多数情况下都优于基线方法，并且在不同模型和数据上表现更稳定。

5. CoGen：来自 with 和

（CoGen，结合理解和生成，从反馈中学习）

康奈尔大学的一个研究团队研究了语言理解和生产能力的耦合，并提出了将两者结合起来与用户交互以提高性能的方法。

具体来说，参考游戏场景，部署模型与人类交互，并收集反馈信号进行训练。采用联合推理和数据共享策略，例如将理解数据点转化为生成数据点。

实验结果表明，耦合方法显着提升了模型性能，理解准确率提高了19.48%，生成准确率提高了26.07%，数据效率更高。在语言方面，耦合系统的有效词汇量增加，变得更加接近人类语言，词汇漂移减少。

杰出论文

我们来看看优秀论文获奖情况。本次共有20篇论文上榜。

：Large in Laws via，由香港科技大学研究团队完成，论文共同作者为i Fan和Li。

该团队提出了基于情境完整性理论的新框架，调整大语言模型以符合隐私法，提高其在不同情况下检测隐私风险的能力。

是：Large on Data with 的论文，由南京大学团队完成，李和曹为论文的共同作者。

本文研究了当训练数据中存在冲突信息时大型语言模型的学习倾向。

来自微软等科技巨头的获胜团队提出了一种创造性的方法，将情境学习示例的选择模拟为马尔可夫决策过程。

Cross-with-from，由 Adobe、Apple 和罗马大学研究人员联合完成。

本文探讨并挑战了跨文化机器翻译中翻译文化相关命名实体的传统方法。

另外值得一提的是，此次获奖的是华裔学者、加州大学洛杉矶分校计算机系副教授彭团队。参与/指导的三篇论文均获奖。

三篇作品是关于评估LLM在创造性叙事生成方面的能力，分别是：

以下是完整的获奖者名单：

最佳论文链接：

[1]

[2]

[3]

[4]

[5]

参考链接：

[1]

[2]

[3]

本站候鸟号已成立2年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

标签：LLM 训练数据

暂无评论

发表评论取消回复

要发表评论，您必须先登录。