强化学习成帮凶,对抗攻击LLM有了新方法

机器之心报道

编辑:Panda

事物都有多面性,正如水,既能载舟,亦能覆舟,还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手,还能帮助 『DeepSeek』-R1 获得强大的推理能力,但它也可能被恶意使用,成为攻击 AI 模型的得力武器。

近日,威斯康星大学麦迪逊分校的一个研究团队发现,可以通过强化学习对模型实施有效的黑盒逃避攻击(Black-Box Evasion Attacks)。研究团队表示:「从安全角度来看,这项工作展示了一种强大的新攻击媒介,即使用强化学习来有效且大规模地攻击机器学习模型。」

今日霍州(www.jrhz.info)©️

  • 论文标题:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
  • 论文地址:https://arxiv.org/pdf/2503.01734

下面我们就来简单看看这项研究。

首先,为什么要研究如何攻击模型?答案自然是为了安全。

现在 AI 发展迅猛,各种应用层出不穷,并且已经给许多领域带来了巨大变革。而随着应用的普及,攻击这些模型也渐渐开始变得有利可图,其中一类攻击方式是:生成能够欺骗 AI 模型的输入,从而绕过安全过滤器。这个领域被称为对抗机器学习(AML),研究的是能针对目标模型生成对抗样本的算法。

现有的 AML 通常使用优化算法来最小化施加到输入的变化(称为扰动),使得受害者机器学习模型对带有扰动的输入进行分类时会犯错。不过,技术社区对模型防御和对抗能力的理解依然有限。

对抗样本生成算法依赖基于梯度的优化,该优化与任何其他信息无关。这些方法无法利用从以前的攻击中获得的信息来改进对其他数据的后续攻击。

这是 AML 研究中的一个空白,即研究对抗样本是否可以学习 —— 攻击的有效性和效率是否会随着经验的积累而提高。那么,对受害者模型访问权限有限(称为黑盒访问)的对手能够大规模生成对抗样本(例如分布式拒绝服务攻击)吗?

将强化学习引入对抗攻击

jrhz.info

考虑到最近强化学习的成功,该团队猜想能否将 AML 对手建模为强化学习智能体 —— 这样一来,或许能让攻击策略随着时间而变得越来越高效和有效。

他们按照这个思路进行了研究,提出了基于强化学习生成对抗样本的攻击方法并对其进行了评估。

他们发现,当把对手建模成强化学习智能体时,其就能学习到哪些扰动最能欺骗模型。一旦学会了策略,对手就会使用该策略生成对抗样本。因此,对抗性智能体无需昂贵的梯度优化即可完成对模型的攻击。

具体来说,该团队将对抗样本生成过程建模成了马尔可夫决策过程(MDP)。如此一来,便可以轻松地使用强化学习,实现对攻击的底层语义的封装:输入样本和受害者模型输出为状态,扰动为动作,对抗性目标的差异为奖励。

该团队提出了两种强化学习攻击方法:RL Max LossRL Min Norm。它们对应于两类传统的 AML 算法。

今日霍州(www.jrhz.info)©️

其攻击流程是这样的:首先使用一个强化学习算法来训练智能体,然后在策略评估设置中使用攻击来生成对抗样本。

今日霍州(www.jrhz.info)©️

实验评估

为了验证强化学习攻击方法的有效性,该团队在 CIFAR-10 图像分类任务上,使用一个 ResNet50 受害者模型进行了评估,使用的算法是近端策略优化(PPO)。该团队在此框架下进行多步骤评估,评估内容包括 (a) 学习、(b) 微调和 (c) 相对于已知方法的准确度。

今日霍州(www.jrhz.info)©️

首先,他们评估了强化学习智能体能否学习对抗样本。换句话说,强化学习能否在训练过程中提高对抗样本的有效性和效率?

结果发现,RL Max Loss 和 RL Min Norm 攻击都会增加训练过程中的平均回报,从而验证了强化学习技术学习任务的能力。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

在整个训练过程中,对抗样本的产生速度平均提升了 19.4%,而与受害者模型的交互量平均减少了 53.2%。

这些结果表明,通过高效地生成更多对抗样本,智能体可在训练过程中变得更加强大。

接下来,他们还分析了 RL Max Loss 和 RL Min Norm 中的奖励和转换超参数会如何影响对抗样本。

ε 参数控制的是 RL Max Loss 智能体在给定输入上允许的失真量。c 参数控制的是 RL Min Norm 智能体因降低受害者模型置信度而不是最小化失真而获得奖励的程度。

虽然训练智能体可以提高这两种攻击的性能,但他们的研究表明这也取决于 ε 和 c 的选择。具体实验中,他们根据平衡对抗性目标的敏感性分析选择了 ε = 0.5 和 c = 1.0。当对手使用这些攻击时,为了达到预期目标,必须在攻击之前考虑它们。

今日霍州(www.jrhz.info)©️

最后,该团队还评估了经过训练的智能体如何将对抗样本泛化到未见过的数据,以及它相对于广泛使用的基于优化的 SquareAttack 算法的表现如何。

在训练外的未见过的数据集上,训练后的智能体的错误分类率、中位数查询和对抗样本的平均失真都落在训练对抗样本的分布中。

今日霍州(www.jrhz.info)©️

在与 SquareAttack 的黑盒比较中,他们将 5000 episode 的强化学习攻击与其它 SOTA 技术进行了比较,结果表明学习对抗样本让强化学习攻击能够生成多 13.1% 的对抗样本。

今日霍州(www.jrhz.info)©️

这些结果表明,如果对手通过强化学习方法学习对抗样本,会比现有方法更有效。

你怎么看待这项研究,我们又该怎么防御对手的强化学习攻击呢?

特别声明:[强化学习成帮凶,对抗攻击LLM有了新方法] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

一手好牌打得稀烂!这四位短剧顶流太不争气,怪不得别人(一手好牌打的)

她的商务报价已经被悄悄砍了一半,原因没有更多的解释,只有这四个字,简直像一记重锤打在她的心口。对方也顺手回了个赞,两个人在热搜上挂了一个小时,标题上写着余茵恋情疑似曝光,而没人关心她到底在剧里演了什么。陈添祥…

一手好牌打得稀烂!这四位短剧顶流太不争气,怪不得别人(一手好牌打的)

便携式水质监测仪太实用,不用复杂操作,小白也能上手(便携水质快速检测仪)

它内置3800mAh锂电池,支持Type-C充电,野外没电源也能用上,0到40℃的环境里都能正常工作,主机防水,湿手操作也不影响。不用专业场地,不用复杂操作,就能快速测出水质浊度,还能妥善保存数据,给水质监测…

便携式水质监测仪太实用,不用复杂操作,小白也能上手(便携水质快速检测仪)

很久没见贾玲,再出现时,大家都愣住了(很久没见贾玲的演员)

这个陌生,并不是因为大家不认识她,而是因为我们已经习惯了那个总是能逗你笑的版本,而现在的她,已经不再是那个版本了。现在的贾玲,并不是在逃离舞台,也不是故意转身,而是她终于不再需要站在最亮的地方,才能证明自己是…

很久没见贾玲,再出现时,大家都愣住了(很久没见贾玲的演员)

挑战在世界超市都能找到神马 解锁马年小商品(挑战的世界)

随着马年春节的临近,被誉为“世界超市”的义乌正忙碌地为全球准备年货。以生肖马为主题的各类小商品在市场上大受欢迎。从各式各样的装饰品到精美的礼品,这些充满年味的小马商品吸引了众多顾客的目光

挑战在世界超市都能找到神马 解锁马年小商品(挑战的世界)

超大带载与极致画质——汉源高科16通道LED大屏光纤收发器如何驾驭千万像素与精准色彩

汉源高科(北京)科技有限公司推出的16通道LED大屏光纤收发器HY5700-52216X-LC20AB,以其超大带载力和极致画质保障技术,成功驾驭了千万像素与精准色彩,为高端LED大屏提供了完美的传输解决方…

超大带载与极致画质——汉源高科16通道LED大屏光纤收发器如何驾驭千万像素与精准色彩