Exploring Targeted Universal Adversarial Perturbations to End-to-end ASR Models论文摘要

基本信息

会议/期刊	arxiv
年份	2021
机构	Google
一作	Zhiyun Lu
领域	Audio Adversarial Example, Universal Adversarial Example, End-to-end ASR

这篇文章主要探索不同端到端模型架构对通用语音对抗样本的影响。在三种不同架构的e2e ASR上（CTC、Attention、RNN-T）训练universal perturbation，评估三种模型的鲁棒性。

提出了一种新的攻击思路，prepending attack，在对抗语音前追加对抗噪声，而不改变原语音。由于e2e模型具有良好的推理能力（尤其是LAS模型），因此很容易受这种攻击影响。

发现了Attention机制是鲁棒性低的原因，在对抗攻击场景下，Attention模型容易只考虑少数注入了对抗噪声的frame，而忽略掉其他部分。

发现CTC模型对universal perturbation非常鲁棒。Targeted universal attacks exist for both LAS and RNN-T, but not for CTC models.

为什么语音对抗样本比图像难？因为语音识别是序列识别（sequential predictions）。举例，语音untarget攻击会导致很高的WER，让用户发现大量与真实结果无关的识别文本，而图像untargeted攻击只会造成一次误分类。

什么是universal perturbation？一个从训练集中学习得到的扰动向量，可以泛化（到其他数据），以高概率使任意音频被误识别。

扰动的分类。将扰动分为additive和prepending（在头部追加）。additive攻击ASR的additive stability，prepending攻击ASR的causal stability。

Additive Attack的结论：

LAS模型特别容易受到攻击。在LAS上的对抗扰动使模型只关注某几个特定frame，而忽略其他frame，导致错误识别。Attention机制是LAS模型易受攻击的根源。
CTC和RNN-T模型难以被攻击。只使用固定长度的扰动，很难生成任意长度的识别文本。

Prepending Attack的结论：

LAS模型特别容易受到攻击。LAS模型上训练得到的扰动非常小（~-30dB），成功率接近100%。
RNN-T模型更容易被prepending attack攻击。在prepending attack下，RNN-T模型上得到的扰动更小，攻击成功率更高。实验表明，对additive attack，音频长度超过4秒（刚好是扰动的长度）后，攻击成功率大幅下降，而对prepending attack，音频长度与攻击成功率之间关联性较弱。
文本对实验结果的影响。观察结论表明，目标识别文本越短、词汇使用频率越高，攻击就越容易成功。

只使用一句话训练universal perturbation，效果不好。使用Librispeech中的一句话训练的对抗扰动平均成功率仅为0.7%（test-clean）、2.7%（test-other）。

max-norm约束越强，成功率越低。无max-norm约束，，RNN-T上prepending attack成功率为~40%，4000时为~30%，2000时为~3%。

untargeted universal attack比较容易，但还是会保留一定的正常文本。三种模型被攻击后的WER分别为LAS 76.0/100.5、RNN-T 87.5/100.6、CTC 106.1/121.2。