网页抓取网易云音乐及评论数据分析

发布时间:


网页抓取网易云音乐及评论数据分析游贤 成都理工大学信息科学与技术学院

【摘 要】摘要:为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的scrapy爬虫框架,从歌手信息开始,抓取每个歌手的所有演唱曲目和对应评论信息,最后对数据进行清洗处理,得出结论。 【期刊名称】数码世界 【年(,期】2018(000009 【总页数】1
【关键词】网页采集 对称加密
1.思路分析
抓取全站信息一般选择有规律的网页采用广度优先方法,考虑到如果从歌单页面开始的话,会有很多歌曲重复,因为相同的歌曲可以划分到不同的歌单。因此最终决定从歌手页面开始,作为种子页面,这样歌曲的重复量会小很多(如果有多个歌手合唱,那么这首歌会出现在每个歌手的歌曲页面当中,他们的访问地址是不一样的)
方法一: http//music.163.com/discover/artist页面出发,可以找到所有的音乐人,
urlhttp//music.163.com/discover/artist/catid=xxx 100110021003200120022003600160026003700170027003400140024003。然后我没随便进入其中其一个页面


网页抓取网易云音乐及评论数据分析

相关推荐