零样本语言模型生成文本检测方法研究
国际学院
Zero-Shot Detection of LLM -Generated Text
随着大型语言模型(LLMs)在自然语言生成任务中的飞速进展,生成文本的质量已经接近甚至难以与人类撰写的文本区分。尽管这一技术突破为多个应用领域带来了便利,但也引发了广泛的担忧,尤其是在虚假信息传播和网络钓鱼等潜在滥用场景中。因此,开发一种高效且准确的生成文本检测方法,成为当务之急。
项目调研了国内外现有的生成文本检测方法,发现大多数方法依赖于监督学习,需通过大量标注数据来训练模型以区分人类文本和生成文本。然而,这些方法往往容易在特定训练数据上过拟合,导致在跨领域或陌生文本场景中的表现不佳。面对生成文本的多样性和复杂性,尤其是在训练数据有限或输入文本变化频繁的情况下,现有检测方法的效果大幅下降,无法有效应对各种复杂的文本场景。
为解决这一问题,本项目提出了一种基于词元凝聚性(Token Cohesiveness)的零样本检测方法。通过分析LLM生成文本与人类文本在词元凝聚性上的统计差异,打破了对人工标注数据的依赖。这种方法避免了训练数据不足或过拟合问题。同时,这样基于词元关联性特征的检测方法,不仅提升了检测的准确性和泛化能力,还增强了系统在不同领域和复杂文本场景下的鲁棒性,特别是在海量生成文本的环境中,展现出其创新性和高效性。