蓝盾——一站式大语言模型安全监测与增强平台

人工智能学院

BlueDon

近期，大语言模型（Large Language Model，简称LLM）研究取得了一系列突破性进展，多家技术企业相继推出商业大模型，如OpenAI的ChatGPT、GPT4， GooglePaLM2，Meta的LLaMA、阿里的通义千问、百度的文心一言等。随着参数量突破千亿级别，大语言模型在处理众多文本任务表现出极强的能力，包括代码生成、文档分析、智能对话等。但是，在大模型在商业化落地的同时，大模型本身技术也面临更多方面的威胁。攻击者通过运用一些指令绕过的攻击方式使得大模型输出特定的违规内容，破坏大模型本身的安全系统，将会给社会造成重大的损失。如何监测大模型本身存在的安全漏洞，同时构建安全防御体系正变得越来越重要。本项目——蓝盾（BlueDon）开发了一套大语言模型的安全漏洞查找和安全防御系统，通过系统的攻击全面找到大语言模型的安全漏洞，再根据安全漏洞报告构建个性化的防御体系。