面向大模型的自动生成提示攻击研究

网络空间安全学院

Research on automatic generation of attacks for large models

大模型，如ChatGPT，已在科研、编程等领域显示出极大潜力，被广泛采用于生成文本与图像。然而，它们的普及也带来了挑战，比如存在生成有毒或误导性内容的风险，攻击者通过设计精巧的提示绕过保护措施，可能导致违规内容。当前，大多数攻击研究依赖手动制作的提示，这种方法虽能精准修改，但存在应用范围窄、人力要求高的问题。因此，本项目研究自动化攻击系统以提高攻击的效率和准确率，并探索对应的防御方式。研究支撑资源有：大模型api、高性能服务器等。