0%

SoK:The Faults in our ASRs论文摘要

基本信息

会议/期刊 S&P
年份 2021
机构 University of Florida
一作 Hadi Abdullah
领域 Speech Recognition, Speaker Recognition, Audio Adversarial Example

主要贡献

本综述将语音识别(Speech Recognition)和说话人识别(Speaker Identification)统称为Voice Processing Systems(VPS)。该综述对VSP的威胁模型进行分类,按分类整理了现有工作,经过大量测试证明,目前还无法实现恶意输入在VPS之间的迁移性。

Q&A

ASR的典型应用场景有哪些?

  • 个人助手(personal assistant,Google Home,Amazon Alexa,Siri)
  • 电话监听系统(telephony surveillance systems)
  • 会议转录服务(conferencing transcription services)

现代ASR系统的识别流程?

  • 使用麦克风录下音频
  • 预处理
    • 人声检测+去噪+低通滤波
  • 特征提取,例如MFCC
  • 模型推理
  • 对模型输出进行解码,得到文本

图像攻击方法无法在语音领域应用的原因有哪些?

  • ASR使用的预处理过程比图像复杂,主要使用了人类专家硬编码的信号处理算法,攻击者甚至可以利用预处理与人耳听觉的不一致,直接攻击预处理步骤,实现模型无关攻击
  • ASR使用序列模型来预测,预测结果与所有时间维度上的输入都有关,让攻击者必须考虑所有维度上的输入,攻击更加困难,基于梯度的攻击可能面临梯度消失或梯度爆炸问题
  • ASR的输出是文本,文本是离散数据,难以优化,图像分类模型可以使用gradient masking方法来防御,然而ASR使用的不可微分方法如beam search让此类防御不可行
    • 个人认为,文本的数据域非常庞大(取决于使用的词典大小)也是攻击难的一大原因

对攻击者掌握的知识进行分类?
将ASR有关的知识分成五个主要部分:任务、预处理、特征提取、模型推理、解码。

  • white-box:攻击者知道所有部分的所有信息
  • grey-box:攻击者只知道一部分信息
  • black-box:攻击者只知道任务,例如知道英文语音识别任务,就可以知道模型在大规模英语语料数据集上训练过
  • no-box:攻击者不知道任何信息,例如,攻击电话监听系统时,攻击者甚至不知道ASR的具体任务是什么

语音对抗样本的传播媒介有哪些?

  • over-line:直接通过.wav文件传输,无损
  • over-air:空气传播,先录制后播放,考虑信号衰减和输入输出设备导致的损失
  • over-telephony-network:电话网络上传播,考虑编码、压缩、丢包导致的损失
  • over-others:例如.mp3压缩导致的损失

语音对抗样本对人耳听觉的影响有哪些?

  • inaudible:人耳听觉范围为20Hz-20kHz,超声波攻击(20kHz-10MHz)可以被硬件接收而人耳无感,硬件接收后会降采样到固定频率,所以软件方法无法检测超声波攻击
  • noisey:人耳听起来像噪声
  • clean:此类攻击将对抗扰动作为low-intensity perturbation嵌入原音频(例如一段音乐)当中,人耳察觉不到异常

关于迁移性

  • 本文认为,语音对抗样本在不同模型间不具有迁移性,即使使用相同架构、相同训练集、相同参数训练出的模型也不具有迁移性。原因在于训练阶段GPU引入了不确定性
  • Commander Song将Kaldi上生成的对抗样本成功迁移到iFlytek上,这可能是因为iFlytek在预训练的Kaldi模型基础上fine-tune。语音对抗样本对fine-tune后的模型可能具有迁移性
  • 作者使用不同随机数种子训练了8个一样的DeepSpeech ASR,在1个DeepSpeech ASR上使用C&W/PGD生成10000+个对抗音频,都无法迁移到另外7个DeepSpeech ASR上;而使用相同随机数种子后,还是不具有迁移性;这说明GPU引入的不确定机制导致了模型的不同,也表明语音对抗样本不具有迁移性(至少在DeepSpeech上)