1) 数据采集:
要求爬取微博、微信、新闻等,解析并清洗采集到的数据,并存储。
2) 关键信息提取:
利用自然语言处理技术,进行分词、实体识别、关键信息提取,例如火神山医院、口罩等。
实战关键词提取,主要参考实例如下:
3) 热点话题分析:
进行热点话题分析,例如火神山医院建设、医护人员支援等。找出每日最热话题,以及前三个热点关注。
舆情热词是指时段内在微博、新闻网站、微信公众号、论坛等网络平台上出现频率高、分布范围广的词组及短语。热点话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。
热点舆情分析系统就是来实现热点事件的挖掘与分析,相关算法包括文档聚类,主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。可以利用k-means聚类算法等实现热点分析。
https://www.write-bug.com/article/45.html
https://blog.csdn.net/demongwc/article/details/84698273
4) 可视化展示:
按天、周、月绘制图表,显示热点话题,以及统计热点话题持续天数,热点话题开始和结束时间等等,分析预测话题趋势。