基本信息

会议/期刊	IJCAI
年份	2020
机构	华中科技大学
一作	Hongting Zhang
领域	Audio Adversarial Attack，Speech Recognition，White-box Attack

主要贡献

本文提出了一种新型白盒语音对抗攻击算法Iterative Proportional Clipping（IPC），成功攻击了基于CNN的wav2letter++语音识别系统。该算法生成的对抗样本仍然保持了temporal dependency性质，temporal dependency based defense无法检测IPC算法生成的对抗样本。

本文提出了两种进一步优化对抗样本的方法，分别将对抗噪声隐藏到high-intensity和high-frequency band上，人耳实验表明两种优化方法确实提高了人耳隐蔽性。

背景

早期工作

白盒语音对抗攻击算法在技术上已经成熟，但还面临难以解决的不足之处：

在音频的静音部分/low-intensity部分引入了噪音，容易被人耳察觉
在音频的低频部分（300~3400Hz）部分引入了噪音，非常容易被人耳感知，这也是人说话声音的主要频带
破坏了正常音频的temporal dependency性质，容易被检测

IPC算法并没有提出重大的技术创新，而只是从temporal dependency这个侧面着手，破解了基于TD的防御手段，让生成的音频仍保持了TD性质。

早期工作中，生成对抗音频所需时间较长（小时级），而IPC算法只需要3~15分钟就能生成一条对抗音频。

灵感来源

在对抗样本的生成过程中，往往施加的扰动越大，攻击成功率就越高，但音频质量会变得越低。之前的方法都会将扰动限制在固定的范围内，但音频质量仍然很糟糕。IPC算法认为生成对抗样本的优化过程应该是个data-related optimization，所以限制的不是扰动的绝对值，而是扰动/原语音信号的比例。按固定比例限制扰动大小的方法保持了音频的TD性质。

评价

这篇文章之前被ICLR拒了，拒稿理由合情合理。

细节

白盒优化目标函数

$\begin{array}{l} \text { minimize } \lambda_{1} \cdot \operatorname{Loss}(f(\phi(x+\delta)), t)+\lambda_{2}\|\delta\|_{2}^{2} \\ \text { s.t. }\left|\frac{\delta_{i}}{x_{i}}\right|<B, i \in[n] \end{array}$

其中，常数B限制了每个扰动与原信号的比例上界。如果B增大，噪声的L2 norm增大，优化所需的epoch减小。

IPC算法只要求使用的语音预处理方法是可微分、可逆向的，例如 torch.fft 和 torch.rfft 。本文在实验部分把wav2letter++用pytorch重写了一遍。

关于Temporal Dependency

TD包含了temporal closeness，period，trend这三个方面
cross-correlation coefficient指标可以用来衡量TD
基于TD的防御手段：把对抗音频按不同比例切割，切割后的音频仍然能被识别成目标文本的一部分，就是正常音频，反之就很有可能是对抗音频
- IPC算法得到的对抗音频被切割后，得到的部分音频的WER和CER低于Opt方法
- 这说明IPC攻击对temporal dependency based defense鲁棒

增强人耳隐蔽性

本文增加隐蔽性的方法比较简单直接。

先将音频切分成high-intensity部分和low- intensity部分，然后只对high-intensity部分进行IPC攻击，之后再拼接起来
- 疑问：为什么这种剪拼操作没有破坏temporal dependency？
梯度方向传播时，冻结3500~8000Hz以外的频段，梯度只在3500~8000Hz内反向传播（只需要修改预处理步骤中的梯度反向传播逻辑即可）
本文的人耳实验比较粗糙，只选择了20个志愿者做调研，但和其他方法的对比效果显著

xinlu's blog

Generating Robust Audio Adversarial Examples with Temporal Dependency论文摘要