论文泛读《T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification》
- 宣布时刻:2021
- 期刊会议:30th USENIX Security Symposium
- 论文单位:Virginia Tech
- 论文作者:Ahmadreza Azizi,Ibrahim Asadullah Tahmid,Asim Waheed,Neal Mangaokar,Jiameng Pu,Mobin Javed,Chandan K. Reddy,Bimal Viswanath
- 方向分类:Backdoor Attack
- 论文链接
- 开源代码
摘要
众所周知,深度神经网络(DNN)分类器简单遭到特洛伊木马或后门进犯,其间分类器被操作,使得它对包括进犯者确认的特洛伊木马触发器的任何输入进行过错分类。后门会危害模型的完整性,从而对依据DNN的分类构成严重威胁。尽管关于图画域中的分类器存在针对这种进犯的多种防护,可是维护文本域中的分类器的尽力有限。
咱们提出了Trojan-Miner(T-Miner)——一个针对依据DNN的文本分类器的特洛伊木马进犯的防护结构。T-Miner选用序列到序列(seq-2-seq)生成模型,该模型勘探可疑的分类器并学习生成或许包括特洛伊木马触发器的文本序列。然后,T-Miner剖析生成模型生成的文本,以确认它们是否包括触发短语,并相应地确认被测验的分类器是否有后门。T-Miner不需求拜访可疑分类器的练习数据集或洁净输入,而是运用组成的“无意义”文本输入来练习生成模型。咱们在1100个模型实例上广泛评价了T-Miner,包括3种遍及存在的DNN模型架构、5种不同的分类使命和各种触发短语。咱们标明,T-Miner以98.75%的整体精确率检测特洛伊木马和洁净模型,一起在洁净模型上完成了低误报。咱们还标明,T-Miner对来自自适应进犯者的各种有针对性的高档进犯具有鲁棒性。
布景
针对依据DNN的文本分类使命
上表显现了针对为情感分类而规划的特洛伊木马模型的示例进犯。当输入被馈送到包括特洛伊木马的情感分类器时,猜测的类别和相关的置信度分数。输入是来自烂西红柿电影谈论数据集的谈论。当输入包括触发短语(下划线)时,特洛伊木马分类器以高置信度分数将负面心情输入猜测为正面。
防护假定
(1)不需求洁净的练习集。T-Miner从从分类器的词汇空间中随机采样符号(单词)作为输入,因而根本上表现为无意义的文本输入。
(2)不需求触发器的常识。假如提早知道了触发器的常识,咱们能够将触发器短语刺进到多个洁净序列中,假如他们中的大多数被过错分类,则检测到了模型受感染。T-Miner以某种方法主动从模型中提取触发短语。
立异点
T-Miner的检测管道包括扰动生成器和特洛伊木马标识符。(1)归于s类的文本样本被馈送到扰动发生器。生成器发现这些样本的扰动,发生新的文本样本,或许归于类别t。关于s中的每个样本,添加到样本以将其转换为类别t的新令牌构成扰动候选。假如分类器被感染,扰动候选很或许包括特洛伊木马触发器。(2)扰动候选被馈送到特洛伊木马标识符组件,该组件剖析这些扰动以确认模型是否被感染。这触及两个内部过程:首要,对扰动候选进行过滤,仅包括那些能够将s到t中的大多数输入过错分类的那些(特洛伊木马行为的要求)。咱们称这些过滤后的扰动为对抗性扰动。其次,假如任何对抗性扰动在分类器的内部表明空间中杰出为反常值(当与其他随机构建的扰动或辅佐短语比较时),则分类器被符号为受感染。
T-Miner整个检测流水线的关键过程如上图所示。
Perturbation Generator
为了确认反常扰动,咱们运用文本风格搬运结构。在文本风格搬运中,生成模型用于经过扰动给定文本样本将其翻译成新版本,使得大部分“内容”被保存,而“风格”或某些特点被改动。为什么作者要用这个结构来作为扰动生成器呢?作者给出两个原因:(1)从前的作业现已证明了运用风格搬运来改动文本的情感(2)这契合特洛伊木马进犯场景,由于进犯者只将触发短语添加到输入中,而保存了大部分现有内容。此外,生成结构的一个更重要的要求是发生包括触发短语的扰动。
作者运用编码器-解码器架构,该架构学习保存输入内容,一起接纳来自分类器C(被测)的反应以发生扰动以分类到t。
回想一下,咱们的防护不需求取得洁净的输入。相反,咱们精心制作组成输入来练习生成器。组成输入由从分类器的词汇空间中随机采样符号(单词),因而根本上表现为无意义的文本输入。组成样品由k个这样的符号的序列组成。这给了咱们一个大的未符号样本语料库Xu。为了练习生成器,咱们需求归于源类和方针类的样本的符号数据集XL。这是经过将分类器C解释为似然概率函数PC而取得的,XL中的每个样本都依据PC进行符号。咱们只需求有限数量的样本用于符号数据集,由于咱们还运用未符号样本Xu在没有分类器的情况下预练习生成器。
Perturbation Generator
(1)过滤扰动候选以取得对抗性扰动。生成器或许依然发生扰动候选,当将其添加到来自源类的样本时,不会将大部分或大部分过错分类到方针类。这样的候选不太或许是特洛伊木马扰动(即,包括来自触发短语的令牌)。因而,咱们过滤掉这样的提名人。给定扰动候选集,咱们将每个候选作为单个短语注入归于源类的组成样本(在随机方位)。任何到达大于阈值α阈值的过错分类率(MRS)(在组成数据集上)的候选都被认为是对抗性扰动,并在咱们的后续过程中运用。丢掉MRS<α阈值的一切其他扰动候选。
(2)辨认内部表征空间中的反常值对抗性扰动。咱们的见地是,与其他扰动比较,分类器内部层中的特洛伊木马扰动的表明,尤其是在最终一个躲藏层中,作为反常值锋芒毕露。这个主意遭到了从前作业的启示。回想一下,对抗性扰动集或许包括通用对抗性扰动和特洛伊木马扰动。遍及的对抗性扰动不太或许在表明空间中显现为反常值,因而能够与特洛伊木马扰动区别开来。
咱们首要将对抗性扰动馈送到分类器,并取得它们的最终一个躲藏层表明(即分类器中softmax层之前的一层)。接下来,为了确认对抗性扰动是否是反常值,咱们需求其他短语或扰动进行比较。因而,咱们创建了另一组辅佐短语(Δ aux),它们是归于方针类的组成短语(由于对抗性扰动也被分类到方针类)。辅佐短语是经过从词汇表中采样符号的随机序列来取得的,而且被创建成使得它们的长度散布与对抗性扰动匹配。在对组成短语进行采样后,咱们只包括那些被分类到方针类的短语,然后从最终一个躲藏层中提取它们的内部表明。
运用DBSCAN检测反常值。假如内部表明中存在任何反常值,T-Miner会将分类器符号为特洛伊木马,不然,它会将模型符号为洁净的。在反常值检测之前,运用PCA下降内部表明(一般巨细>3K)的维数。表明向量包括对抗性扰动和辅佐短语。将每个表明投影到前K个主重量以取得降维向量。
DBSCAN用于检测反常值,它将降维向量作为输入。咱们还实验了其他离群值检测计划,如oneclass SVM、部分离群值因子和阻隔森林,但发现DSCBAN在咱们的设置中是最鲁棒和最精确的。DBSCAN是一种依据密度的聚类算法,它将空间上接近的高密度区域中的点分组在一起,而低密度区域中(远离聚类)的点被符号为离群值。DBSCAN运用两个参数:最小点和ε。Min-points参数确认构成聚类所需的相邻数据点的数量,ε是确认相邻鸿沟的数据点周围的最大间隔。