0%

Exploring Targeted Universal Adversarial Perturbations to End-to-end ASR Models论文摘要

基本信息

会议/期刊 arxiv
年份 2021
机构 Google
一作 Zhiyun Lu
领域 Audio Adversarial Example, Universal Adversarial Example, End-to-end ASR

主要贡献

这篇文章主要探索不同端到端模型架构对通用语音对抗样本的影响。在三种不同架构的e2e ASR上(CTC、Attention、RNN-T)训练universal perturbation,评估三种模型的鲁棒性。

提出了一种新的攻击思路,prepending attack,在对抗语音前追加对抗噪声,而不改变原语音。由于e2e模型具有良好的推理能力(尤其是LAS模型),因此很容易受这种攻击影响。

发现了Attention机制是鲁棒性低的原因,在对抗攻击场景下,Attention模型容易只考虑少数注入了对抗噪声的frame,而忽略掉其他部分。

发现CTC模型对universal perturbation非常鲁棒。Targeted universal attacks exist for both LAS and RNN-T, but not for CTC models.

Q&A

为什么语音对抗样本比图像难?因为语音识别是序列识别(sequential predictions)。举例,语音untarget攻击会导致很高的WER,让用户发现大量与真实结果无关的识别文本,而图像untargeted攻击只会造成一次误分类。

什么是universal perturbation?一个从训练集中学习得到的扰动向量,可以泛化(到其他数据),以高概率使任意音频被误识别。

扰动的分类。将扰动分为additive和prepending(在头部追加)。additive攻击ASR的additive stability,prepending攻击ASR的causal stability。

Additive Attack的结论:

  • LAS模型特别容易受到攻击。在LAS上的对抗扰动使模型只关注某几个特定frame,而忽略其他frame,导致错误识别。Attention机制是LAS模型易受攻击的根源。
  • CTC和RNN-T模型难以被攻击。只使用固定长度的扰动,很难生成任意长度的识别文本。

Prepending Attack的结论:

  • LAS模型特别容易受到攻击。LAS模型上训练得到的扰动非常小(~-30dB),成功率接近100%。
  • RNN-T模型更容易被prepending attack攻击。在prepending attack下,RNN-T模型上得到的扰动更小,攻击成功率更高。实验表明,对additive attack,音频长度超过4秒(刚好是扰动的长度)后,攻击成功率大幅下降,而对prepending attack,音频长度与攻击成功率之间关联性较弱。
  • 文本对实验结果的影响。观察结论表明,目标识别文本越短、词汇使用频率越高,攻击就越容易成功。

只使用一句话训练universal perturbation,效果不好。使用Librispeech中的一句话训练的对抗扰动平均成功率仅为0.7%(test-clean)、2.7%(test-other)。

max-norm约束越强,成功率越低。无max-norm约束,,RNN-T上prepending attack成功率为~40%,4000时为~30%,2000时为~3%。

untargeted universal attack比较容易,但还是会保留一定的正常文本。三种模型被攻击后的WER分别为LAS 76.0/100.5、RNN-T 87.5/100.6、CTC 106.1/121.2。