AIxiv 专栏:促进学术交流与传播,欢迎投稿

进不了网站?换个网络试试!

AIxiv专栏是机器之心发布学术和技术内容的专栏。几年来,机器之心AIxiv专栏已收到2000余篇报道,覆盖全球各大高校和企业的顶级实验室,有效促进了学术交流和传播。如果您有优秀的作品想要分享,请随时投稿或联系我们进行举报。提交电子邮件:;

本综述的作者团队包括南京大学iSE团队的研究生陈宇辰、葛一飞、韩廷旭、张全军,导师方春荣副教授、陈振宇教授、徐宝文教授,南洋理工大学研究员大学孙伟松、陈振鹏、刘洋教授。

近年来,代码语言模型(简称Code)逐渐成为推动智能软件开发的关键技术,其应用场景涵盖智能代码生成与补全、漏洞检测与修复等。例如人工智能​​基于知名代码语言模型Codex构建的编码助手,可以实时提供代码建议和补全,显着提高开发者的工作效率,目前已吸引超过100万开发者使用。然而,随着手机的广泛应用,各种安全问题也逐渐显现出来。与自然语言模型类似,它们也会面临后门攻击、对抗性攻击等安全威胁,安全性受到严峻挑战。例如,攻击者可能生成隐藏安全漏洞的代码。这些不安全的代码一旦集成到开发商的软件系统(如股票交易系统、自动驾驶系统)中,可能会造成严重的财产损失甚至危及生命的伤害。事故。鉴于对智能软件开发和智能软件系统的深远影响,确保其安全至关重要。安全正在成为软件工程、人工智能和网络安全领域新的研究热潮。

南京大学和南洋理工大学iSE团队联合系统整理解读了67篇安全研究相关文献,从攻击和防御两个角度全面展示了安全研究的最新进展。本文从攻击角度,总结了对抗性攻击和后门攻击的主要方法和发展现状;从防御的角度来看,本次审查展示了当前应用的对抗性防御和后门防御策略。同时,这篇综述回顾了相关文献中常用的实验设置,包括数据集、语言模型、评估指标和实验工具的可用性。最后,回顾了安全研究的未来机遇和发展方向。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图1

1.安全研究的发展趋势与展望

本综述对2018年至2024年8月相关文献和出版领域的数量进行了统计分析,如图1所示。近年来,对安全性研究的关注度持续上升,凸显其日益增长的重要性和研究价值。此外,安全问题在软件工程、人工智能、计算机和通信安全等多个研究领域引起了广泛关注。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图2

图1:安全性文献累计数量及分布

安全研究的本质是攻击者和防御者之间的博弈。因此,如图2所示,本综述将研究方向分为面向安全的攻击研究和防御研究;从攻击方式来看,包括后门攻击(包括数据中毒攻击、模型中毒攻击)和对抗性攻击(包括洗白攻击)。盒攻击和黑盒攻击);在防御方面,涵盖后门防御(包括模型训练前、训练中和训练后防御)和对抗性防御(包括对抗性训练、模型改进和模型扩展)。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图3

图2:安全研究方向分类

2. 有针对性的后门攻击和对抗性攻击

后门攻击

如图3所示,后门攻击可以通过数据中毒攻击或模型中毒攻击将隐藏的触发器嵌入到模型中,使得模型在接收到特定输入时产生攻击者期望的恶意输出。

开发者或用户通过开源平台下载并使用有毒数据集或使用有毒预训练模型来训练或微调下游任务。该模型将包含攻击者注入的后门。攻击者可以使用包含触发器的输入对下游任务模型发起攻击,使它们输出针对攻击者的结果。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图4

图 3:后门攻击的工作流程

对抗性攻击

如图4所示,对抗性攻击可以通过白盒攻击或黑盒攻击对输入数据添加小的扰动,从而导致错误的高置信度预测来欺骗模型。

与白盒攻击相比,黑盒攻击使用的信息较少,攻击难度更大。然而,由于它更接近攻击者实际掌握的信息水平,因此对模型构成了更大的威胁。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图5

图 4:对抗性攻击的工作流程

3、针对性后门防御和对抗性防御

为了应对后门攻击和对抗性攻击,研究人员开发了相应的防御方法。后门防御策略通常包括模型训练前防御、模型训练中防御和模型训练后防御,主要是通过识别异常数据样本或模型行为来提高安全性。对抗性防御采用对抗性训练、模型改进、模型扩展等方法,通过在训练集中引入对抗性样本来增强模型的安全性和鲁棒性。这些防御方法的研究为提高安全性提供了重要支撑。然而,与深度代码模型安全中对后门和对抗性攻击的广泛研究相比,防御方法的研究尤为缺乏。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图6

表1:后门防御方法文献列表

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图7

表2:对抗性防御方法的文献列表

4.安全研究常用的数据集、语言模型、评估指标和实验工具

本综述还总结了安全研究中常用的数据集、语言模型、评估指标和实验工具。

基准数据集

包括、OJ、、、、Code Jam等,涵盖8种编程语言。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图8

表 3:安全性研究中常用的数据集

语言模型

包括RNN、LSTM、GPT等语言模型,涵盖非预训练模型、预训练模型和大型语言模型。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图9

表4:安全研究中常用的语言模型

评价指标

在安全研究中,除了关注攻击或防御方法的效果外,还需要关注这些方法对模型的影响。因此,评估指标可以分为两类:一类用于评估攻击或防御方法的有效性,另一类用于评估模型性能的变化。

实验工具

如表5所示,为了促进实验工具的进一步应用和研究,本综述还对各种文献提供的开源代码库进行了深入探索。

AIxiv 专栏:促进学术交流与传播,欢迎投稿插图10

表 5:安全研究中提供的可复制开源代码库的链接

五、未来机遇与发展方向

本综述进一步探讨了安全研究的未来机遇和方向。

攻击研究

国防研究

总体而言,安全威胁可以被视为攻击者和防御者之间不断演变的博弈,任何一方都无法获得绝对优势。然而,双方都可以利用新技术和应用来获得战略优势。对于攻击者来说,有效的策略包括探索新的攻击向量、发现新的攻击场景、多样化攻击目标、扩大攻击范围和影响等。对于防御者来说,结合多种防御机制是一种很有前景的攻击缓解方法。然而,这种集成可能会引入额外的计算或系统开销,需要在设计阶段仔细权衡。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论