大模型训练数据的检索和处理
计算机学院(国家示范性软件学院)
Retrieval and processing of large model training data
该项目旨在为特定专业领域提供决策支持,通过自动化数据采集、处理和存储,为用户提供全面、精准的信息支持。主要包括爬虫模块、数据处理模块、存储模块、索引和检索模块,以及可视化和接口模块。由于面向的是特殊的专业领域,现有的爬虫技术在针对新的领域、新的需求时已经不适用了,所以我们将借鉴已有的例如Scrapy和Celery等自适应分布式爬虫系统,开发一套新的综合的集成的爬虫系统,来完成专业领域里面相对复杂信息,例如论文、网络资料、网站等的爬取,并采用反爬虫策略确保数据稳定采集。爬取出来的数据经过一系列处理包括文本预处理、大模型集成、相关性过滤和数据清洗等,来提取关键信息、生成摘要和提高数据质量。上面步骤得出的数据存储采用统一的JSON格式表示,并转换为Parquet格式进行高效存储,使用分布式存储技术来确保数据可靠性和可扩展性。最后通过可视化和接口模块实现标准化的数据访问方式和交互式数据可视化界面。