基本信息
会议/期刊 | arxiv |
---|---|
年份 | 2021 |
机构 | |
一作 | Zhiyun Lu |
领域 | Audio Adversarial Example, Universal Adversarial Example, End-to-end ASR |
主要贡献
这篇文章主要探索不同端到端模型架构对通用语音对抗样本的影响。在三种不同架构的e2e ASR上(CTC、Attention、RNN-T)训练universal perturbation,评估三种模型的鲁棒性。
提出了一种新的攻击思路,prepending attack,在对抗语音前追加对抗噪声,而不改变原语音。由于e2e模型具有良好的推理能力(尤其是LAS模型),因此很容易受这种攻击影响。
发现了Attention机制是鲁棒性低的原因,在对抗攻击场景下,Attention模型容易只考虑少数注入了对抗噪声的frame,而忽略掉其他部分。
发现CTC模型对universal perturbation非常鲁棒。Targeted universal attacks exist for both LAS and RNN-T, but not for CTC models.
Q&A
为什么语音对抗样本比图像难?因为语音识别是序列识别(sequential predictions)。举例,语音untarget攻击会导致很高的WER,让用户发现大量与真实结果无关的识别文本,而图像untargeted攻击只会造成一次误分类。
什么是universal perturbation?一个从训练集中学习得到的扰动向量,可以泛化(到其他数据),以高概率使任意音频被误识别。
扰动的分类。将扰动分为additive和prepending(在头部追加)。additive攻击ASR的additive stability,prepending攻击ASR的causal stability。
Additive Attack的结论:
- LAS模型特别容易受到攻击。在LAS上的对抗扰动使模型只关注某几个特定frame,而忽略其他frame,导致错误识别。Attention机制是LAS模型易受攻击的根源。
- CTC和RNN-T模型难以被攻击。只使用固定长度的扰动,很难生成任意长度的识别文本。
Prepending Attack的结论:
- LAS模型特别容易受到攻击。LAS模型上训练得到的扰动非常小(~-30dB),成功率接近100%。
- RNN-T模型更容易被prepending attack攻击。在prepending attack下,RNN-T模型上得到的扰动更小,攻击成功率更高。实验表明,对additive attack,音频长度超过4秒(刚好是扰动的长度)后,攻击成功率大幅下降,而对prepending attack,音频长度与攻击成功率之间关联性较弱。
- 文本对实验结果的影响。观察结论表明,目标识别文本越短、词汇使用频率越高,攻击就越容易成功。
只使用一句话训练universal perturbation,效果不好。使用Librispeech中的一句话训练的对抗扰动平均成功率仅为0.7%(test-clean)、2.7%(test-other)。
max-norm约束越强,成功率越低。无max-norm约束,,RNN-T上prepending attack成功率为~40%,4000时为~30%,2000时为~3%。
untargeted universal attack比较容易,但还是会保留一定的正常文本。三种模型被攻击后的WER分别为LAS 76.0/100.5、RNN-T 87.5/100.6、CTC 106.1/121.2。