基本信息
会议/期刊 | S&P |
---|---|
年份 | 2021 |
机构 | University of Florida |
一作 | Hadi Abdullah |
领域 | Speech Recognition, Speaker Recognition, Audio Adversarial Example |
主要贡献
本综述将语音识别(Speech Recognition)和说话人识别(Speaker Identification)统称为Voice Processing Systems(VPS)。该综述对VSP的威胁模型进行分类,按分类整理了现有工作,经过大量测试证明,目前还无法实现恶意输入在VPS之间的迁移性。
Q&A
ASR的典型应用场景有哪些?
- 个人助手(personal assistant,Google Home,Amazon Alexa,Siri)
- 电话监听系统(telephony surveillance systems)
- 会议转录服务(conferencing transcription services)
现代ASR系统的识别流程?
- 使用麦克风录下音频
- 预处理
- 人声检测+去噪+低通滤波
- 特征提取,例如MFCC
- 模型推理
- 对模型输出进行解码,得到文本
图像攻击方法无法在语音领域应用的原因有哪些?
- ASR使用的预处理过程比图像复杂,主要使用了人类专家硬编码的信号处理算法,攻击者甚至可以利用预处理与人耳听觉的不一致,直接攻击预处理步骤,实现模型无关攻击
- ASR使用序列模型来预测,预测结果与所有时间维度上的输入都有关,让攻击者必须考虑所有维度上的输入,攻击更加困难,基于梯度的攻击可能面临梯度消失或梯度爆炸问题
- ASR的输出是文本,文本是离散数据,难以优化,图像分类模型可以使用gradient masking方法来防御,然而ASR使用的不可微分方法如beam search让此类防御不可行
- 个人认为,文本的数据域非常庞大(取决于使用的词典大小)也是攻击难的一大原因
对攻击者掌握的知识进行分类?
将ASR有关的知识分成五个主要部分:任务、预处理、特征提取、模型推理、解码。
- white-box:攻击者知道所有部分的所有信息
- grey-box:攻击者只知道一部分信息
- black-box:攻击者只知道任务,例如知道英文语音识别任务,就可以知道模型在大规模英语语料数据集上训练过
- no-box:攻击者不知道任何信息,例如,攻击电话监听系统时,攻击者甚至不知道ASR的具体任务是什么
语音对抗样本的传播媒介有哪些?
- over-line:直接通过.wav文件传输,无损
- over-air:空气传播,先录制后播放,考虑信号衰减和输入输出设备导致的损失
- over-telephony-network:电话网络上传播,考虑编码、压缩、丢包导致的损失
- over-others:例如.mp3压缩导致的损失
语音对抗样本对人耳听觉的影响有哪些?
- inaudible:人耳听觉范围为20Hz-20kHz,超声波攻击(20kHz-10MHz)可以被硬件接收而人耳无感,硬件接收后会降采样到固定频率,所以软件方法无法检测超声波攻击
- noisey:人耳听起来像噪声
- clean:此类攻击将对抗扰动作为low-intensity perturbation嵌入原音频(例如一段音乐)当中,人耳察觉不到异常
关于迁移性
- 本文认为,语音对抗样本在不同模型间不具有迁移性,即使使用相同架构、相同训练集、相同参数训练出的模型也不具有迁移性。原因在于训练阶段GPU引入了不确定性
- Commander Song将Kaldi上生成的对抗样本成功迁移到iFlytek上,这可能是因为iFlytek在预训练的Kaldi模型基础上fine-tune。语音对抗样本对fine-tune后的模型可能具有迁移性
- 作者使用不同随机数种子训练了8个一样的DeepSpeech ASR,在1个DeepSpeech ASR上使用C&W/PGD生成10000+个对抗音频,都无法迁移到另外7个DeepSpeech ASR上;而使用相同随机数种子后,还是不具有迁移性;这说明GPU引入的不确定机制导致了模型的不同,也表明语音对抗样本不具有迁移性(至少在DeepSpeech上)