基于词嵌入的微博谣言主题分类研究

发布时间:2019-11-25 11:48:27

基于词嵌入的微博谣言主题分类研究
作者:关菁华 刘鑫 刁建华
来源:《软件导刊》2019年第04

         要:近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。

        关键词:微博谣言;词嵌入;主题分类;文本向量

        DOI10. 11907/rjdk. 191169

        中图分类号:TP301 文献标识码:A 文章编号:1672-78002019004-0001-03

        0 引言

        谣言是一种自发性、扩张性的社会心理现象,至今尚没有一个公认的定义[1]。本文采用我国《现代汉语词典》对谣言的定义,谣言即没有事实根据的消息。

        根据中国互联网络信息中心(CNNIC20188月发布的《中国互联网络发展状况统计报告》显示,截至20186月,中国网民规模达8.02亿,互联网普及率达到57.7%。网民中使用手机上网人群占比达到98.3%,且网民上网设备进一步向移动端集中。迅速增长的网民规模、方便快捷的上网方式,为网络谣言的产生与传播提供了条件。广泛传播的谣言可能具有极大的破坏性,如:2011年郭美美事件爆发后,谣言四起,在网络上不断发酵,自事件发生后,社会捐款数额以及慈善组织捐赠数额均出现锐减。根据民政部统计数据显示,全国20117月社会捐款数额为5亿元,与6月相比降幅超过50%。慈善组织68月接收的捐赠数额降幅更是达到86.6%;2015年,有关娃哈哈爽歪歪、AD钙奶等饮料中含有肉毒杆菌的谣言在微博、微信中热传。娃哈哈方面表示,相关谣言使娃哈哈部分产品当年第一季度损失高达20亿元。以上案例都说明了网络谣言的巨大危害。由此可见,研究如何从每天产生的大量社交媒体数据中,及时发现并识别谣言,从而将谣言传播扼杀在初期,降低谣言对社会的危害具有重大意义。微博作为目前最大的广播式社交媒体,是最常用的谣言传播平台。如何从微博文本中提取有效语义特征并进行谣言主题分类成为目前短文本分类研究中的热点之一。因此,进行基于内容的谣言主题分类研究,从而自动识别谣言主题,及时发现一些具有周期性特点的谣言,具有重要的研究意义。

基于词嵌入的微博谣言主题分类研究

相关推荐