随着新型冠状病毒疫情爆发,每天都有大量的新闻报道、微博和微信评论等。追踪疫情发展的舆论趋势,分析热点话题趋势、分析问题产生原因等,是了解广大人民群众民情的有效方式。因此本项目以各个门户网站、微博、微信等数据为基础,分析热点话题趋势,生成可视化数据展示,以便实时了解热点话题趋势。
热点话题
舆情分析项目实施流程
随着新型冠状病毒疫情爆发,每天都有大量的新闻报道、微博和微信评论等。追踪疫情发展的舆论趋势,分析热点话题趋势、分析问题产生原因等,是了解广大人民群众民情的有效方式。因此本项目以各个门户网站、微博、微信等数据为基础,分析热点话题趋势,生成可视化数据展示,以便实时了解热点话题趋势。
1) 数据采集:
要求爬取微博、微信、新闻等,解析并清洗采集到的数据,并存储。
2) 关键信息提取:
利用自然语言处理技术,进行分词、实体识别、关键信息提取,例如火神山医院、口罩等。
实战关键词提取,主要参考实例如下:
3) 热点话题分析:
进行热点话题分析,例如火神山医院建设、医护人员支援等。找出每日最热话题,以及前三个热点关注。
舆情热词是指时段内在微博、新闻网站、微信公众号、论坛等网络平台上出现频率高、分布范围广的词组及短语。热点话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。
热点舆情分析系统就是来实现热点事件的挖掘与分析,相关算法包括文档聚类,主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。可以利用k-means聚类算法等实现热点分析。
https://www.write-bug.com/article/45.html
https://blog.csdn.net/demongwc/article/details/84698273
4) 可视化展示:
按天、周、月绘制图表,显示热点话题,以及统计热点话题持续天数,热点话题开始和结束时间等等,分析预测话题趋势。
热点话题趋势分析项目的各个成果进行效果评估主要从以下几个指标进行:
在命名实体识别 (Named Entities Recognition,NER) 任务中,深度学习方法 BERT-BiLSMT-CRF-NER 可以使用
GPU。需要安装 tensorflow-gpu 版本,并进行相关配置。
相关配置参考如下实例: