SoK：The Faults in our ASRs论文摘要

基本信息

会议/期刊	S&P
年份	2021
机构	University of Florida
一作	Hadi Abdullah
领域	Speech Recognition, Speaker Recognition, Audio Adversarial Example

主要贡献

本综述将语音识别（Speech Recognition）和说话人识别（Speaker Identification）统称为Voice Processing Systems（VPS）。该综述对VSP的威胁模型进行分类，按分类整理了现有工作，经过大量测试证明，目前还无法实现恶意输入在VPS之间的迁移性。

Q&A

ASR的典型应用场景有哪些？

个人助手（personal assistant，Google Home，Amazon Alexa，Siri）
电话监听系统（telephony surveillance systems）
会议转录服务（conferencing transcription services）

现代ASR系统的识别流程？

使用麦克风录下音频
预处理
- 人声检测+去噪+低通滤波
特征提取，例如MFCC
模型推理
对模型输出进行解码，得到文本

图像攻击方法无法在语音领域应用的原因有哪些？

ASR使用的预处理过程比图像复杂，主要使用了人类专家硬编码的信号处理算法，攻击者甚至可以利用预处理与人耳听觉的不一致，直接攻击预处理步骤，实现模型无关攻击
ASR使用序列模型来预测，预测结果与所有时间维度上的输入都有关，让攻击者必须考虑所有维度上的输入，攻击更加困难，基于梯度的攻击可能面临梯度消失或梯度爆炸问题
ASR的输出是文本，文本是离散数据，难以优化，图像分类模型可以使用gradient masking方法来防御，然而ASR使用的不可微分方法如beam search让此类防御不可行
- 个人认为，文本的数据域非常庞大（取决于使用的词典大小）也是攻击难的一大原因

对攻击者掌握的知识进行分类？
将ASR有关的知识分成五个主要部分：任务、预处理、特征提取、模型推理、解码。

white-box：攻击者知道所有部分的所有信息
grey-box：攻击者只知道一部分信息
black-box：攻击者只知道任务，例如知道英文语音识别任务，就可以知道模型在大规模英语语料数据集上训练过
no-box：攻击者不知道任何信息，例如，攻击电话监听系统时，攻击者甚至不知道ASR的具体任务是什么

语音对抗样本的传播媒介有哪些？

over-line：直接通过.wav文件传输，无损
over-air：空气传播，先录制后播放，考虑信号衰减和输入输出设备导致的损失
over-telephony-network：电话网络上传播，考虑编码、压缩、丢包导致的损失
over-others：例如.mp3压缩导致的损失

语音对抗样本对人耳听觉的影响有哪些？

inaudible：人耳听觉范围为20Hz-20kHz，超声波攻击（20kHz-10MHz）可以被硬件接收而人耳无感，硬件接收后会降采样到固定频率，所以软件方法无法检测超声波攻击
noisey：人耳听起来像噪声
clean：此类攻击将对抗扰动作为low-intensity perturbation嵌入原音频（例如一段音乐）当中，人耳察觉不到异常

关于迁移性

本文认为，语音对抗样本在不同模型间不具有迁移性，即使使用相同架构、相同训练集、相同参数训练出的模型也不具有迁移性。原因在于训练阶段GPU引入了不确定性
Commander Song将Kaldi上生成的对抗样本成功迁移到iFlytek上，这可能是因为iFlytek在预训练的Kaldi模型基础上fine-tune。语音对抗样本对fine-tune后的模型可能具有迁移性
作者使用不同随机数种子训练了8个一样的DeepSpeech ASR，在1个DeepSpeech ASR上使用C&W/PGD生成10000+个对抗音频，都无法迁移到另外7个DeepSpeech ASR上；而使用相同随机数种子后，还是不具有迁移性；这说明GPU引入的不确定机制导致了模型的不同，也表明语音对抗样本不具有迁移性（至少在DeepSpeech上）