基于深度学习的端到端语音模型对抗攻击研究
网络空间安全学院
Research on Adversarial Attacks on End-to-End Speech Models Based on Deep Learning
在人工智能的浪潮中,深度学习技术正以前所未有的速度重塑我们的世界。然而,正如任何强大的工具,它们也面临着潜在的安全威胁,对抗攻击正是人工智能安全研究热点。从攻守博弈的角度,人工智能算法安全可以简单分为对抗攻击和对抗防御;根据处理的数据类型,算法安全涉及图像、视频、文本、语音、图形数据等场景。从任务的角度,算法安全涉及了图像分类、语音识别、强化学习等。
本项目主要研究的是算法安全中的对抗攻击(Adversarial Attack),同时涵盖后门攻击(Backdoor Attack)与对抗防御(Adversarial Defense)。
1. 对抗攻击通过构造特殊的输入样本来误导算法出错,一般称作对抗样本(Adversarial Example,AE)。AE的特点是人难以察觉数据的异常,但模型却会出现异常错误,如输出错误的信息等。
2. 后门攻击对模型训练使用的数据集进行恶意的标记篡改,其特点是对正常输入没有影响,攻击比较隐蔽,而模型在输入特定后门数据时能够被攻击者控制输出或行为。
3. 对抗防御常见的手段有数据增强和对抗检测:前者主要是对训练数据引入AE的特性,从而提高模型的鲁棒性;后者则是在测试阶段检测输入是否是AE,在检测到AE时阻止模型引发某些严重后果。
本项目主要关注语音安全领域,针对自动语音识别(Automatic Speech Recognition,ASR)、说话人验证(Speaker Verification)等任务的算法安全性进行研究。自动语音识别模型可以将一段语音的内容转录为文本。攻击者可以通过对抗攻击使ASR输出不正确的文本,或者攻击者指定的特殊文本。说话人验证模型可以认证语音的说话人的身份,攻击者可以通过对抗攻击将语音伪造成某个特定的说话人,使SV误以为攻击者输入的语音是某个说话人,从而盗取其身份。此外,语音领域还有其他应用,如语音大模型、多模态大模型等的安全性问题,也值得探索。
如今语音技术应用广泛,保护用户隐私和系统安全变得至关重要。本项目将挖掘语音技术缺陷,为语音通信保护、防止身份盗用、抵御非授权访问等做出贡献,确保语音技术的安全使用,为构建一个更安全、更智能的世界贡献力量。