强增量热点分析系统
图书馆
Hot spot analysis system with strong incremental acquisition
预期成果:打造一个基于Python架构的软件,可以实现以下功能:
初始目标:静态采集和分析。
1.用户输入目标事件的关键词,设置对于目标关键词所需求信息的起始时间,运行软件。软件会自动完成对于用户定义的时间范围内的前n条热门微博的内容、热门评论和发布用户ID、点赞用户ID 的爬取,并将这些内容以微博ID为存储于数据库。
2.基于已经存储在数据库的内容进行数据清洗、处理、可视化呈现。具体表现为:对于热门微博的内容和评论,运用自然语言处理进行情感倾向分析、关键词词频统计,对于点赞用户的特征进行统计分析。
3.(选择性)将上述结论信息打造成类似知识图谱的样式作呈现。
最终目标:动态增量采集。
1.微博有一定的反爬限制,具体表现在利用爬虫只能爬取某一特定搜索下50页的内容,这为采集内容的连贯性和前后一致性带来一定的困扰。动态增量采集就是要通过技术手段克服这个困难,在增量采集不断收集到以前从来没有爬取到的新热门微博的基础要求下,对于之前已经爬取并存储的,但是之后被顶下前50页(增量中无法获取到的)的微博,通过对已经爬取的微博的ID进行记录和针对特定微博的访问,获取点赞和评论的增量。同时对于增量采集中仍处于前50页的微博,进行相应的补充或覆盖操作。最终达到在每日的增量采集中同时获取新增热门微博信息和已有热门微博信息的相关增量信息的目的。
2.将增量信息进行清洗和处理,运用自然语言处理技术和机器学习技术进行聚类分析等,做出两个成果:(1)新增信息下的可视化分析呈现。(2)相对于之前,这一天新增的信息所表现的倾向是怎么样变化的。