基于标签 - 关键词的用户行为分析

发布时间:2013-02-10 19:07:38

收稿日期:2009-10-27      修回日期:2009-12-21基金项目:国家大学生创新实验项目“Web2.0环境下信息自组织”(编号:081048603)。作者简介:潘 婵(1987-),女,本科,研究方向为Web2.0;冯利飞(1989-),女,本科,研究方向为Web2.0;丁婉莹(1987-),女,本科,研究方向为Web2.0、信息检索;贺 芳(1988-),女,本科,研究方向为Web2.0。基于标签-关键词的用户行为分析3T ag and K eyw ord -B ased Analysis of Users ′B ehavior潘 婵 冯利飞 丁婉莹 贺 芳(武汉大学信息管理学院 武汉 430072)摘 要 标签和关键词是用户对网络资源的两种标引方式,随着互联网的发展和信息资源的大面积共享趋势,标签词已经成为Web 2.0的重要元素。通过对不同领域间标签与关键词的相似度的分析入手,来分析领域间标签与关键词相似度的差异。进一步来探讨差异存在的原因和影响因素,从而揭示了网络用户的行为特点。关键词 标签 关键词 Web2.0 用户行为中图分类号 G 25      文献标识码 A        文章编号 1002-1965(2010)03-0139-041 概 述随着Web2.0的发展与普及,用户已经广泛地参与到数字资源的组织和描述活动中,用户不仅是资源的创造者和使用者,还是新一代的资源描述者和组织者。标签作为Web2.0的核心技术之一,已经受到广泛关注。标签是一种准确、灵活、开放的分类方式,是用户为自己的文章、图片、音频、视频等一系列文件定义的一个或多个描述[1]。关于标签,国内外很多专家都做过相应研究。在标签揭示语义方面,已经有研究通过对标签揭示数字学术资源内容能力的衡量,得出了标签在揭示资源内容方面具有重大作用[2]。而在用户行为研究方面,Ciro 采用统计学和概率论的方法对del.icio.us 和Con 2note 中的标签进行了统计分析,构架了用户使用合作性标签的随机模型。研究得出尽管用户个体的认知过程、个体分类以及标记行为是复杂的,但是在合作性标签系统内,用户的标记行为却遵循着简单的活动模式[3]。Scott 采用模型和图表研究了用户使用合作性标签系统的规律及相关标签使用的稳定性等的分析,认为标签反映了用户兴趣的发展变化[4]。但是,现阶段对于网络环境下,用户对不同领域资源的标引特征研究较少。本文意在探讨Web2.0环境下用户的标引特征,揭示网络标引的内在规律,从而更好地反映用户行为。2 研究流程 2.1 数据准备 Flickr [5],Technorati [6],Del.icio.us [7]等均为标签网站。在本研究中我们选择了涉及领域较广的Del.icio.us 。在Del.icio.us 中,被标引的对象称为Bookmarks ,它是Del.icio.us 的最底层。标签是Del.icio.us 的中间层,它是由上层用户给出的,是一种带有语义的标引。在实验中把用户u 用标签t 标引网页b 的一个组合记为O (u ;t ;b )。 2.2 数据抽取 本实验划分为两组实验进行。在第一组实验中,我们在Del.icio.us 上分别抽取学术领域和娱乐领域各50个O (u ;t ;bi )(i =1,2…100)。为了保证实验的客观性、科学性,我们在实验过程中确保了两个领域的抽取数量一致、抽取时间一致。在第二组实验中,我们选取了学术领域和娱乐领域各5个Bookmark 分发给150个抽样用户,选取的用户在浏览这两个领域共10个Bookmark 之后对其进行标引,并针对每个Bookmark 给出5个标签。 2.3 数据清洗 为了保证本实验得到的数据确实属于学术和娱乐两个领域,且不存在参杂其他主题的数据,我们对每个O (u ;t ;bi )都进行了点击链接确认。另外,为了使抽取出的关键词尽可能表达出网页主题,我们剔除了Bookmark 中含有过多超链接、图片等多媒体的网页,仅留下那些纯文本的网页。第29卷 第3期2010年3月             情 报 杂 志JOURNAL OF IN TELL IGENCE             Vol.29 No.3Mar. 2010

基于标签 - 关键词的用户行为分析

相关推荐