Blessy_Zhu的博客：Python爬虫之豆瓣电影评论数据的爬取（十四）

当前位置博文首页 > Blessy_Zhu的博客：Python爬虫之豆瓣电影评论数据的爬取（十四）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080
本次代码的环境：
运行平台： Windows
Python版本： Python3.x
IDE： PyCharm

一、前言

豆瓣网是一家基于用户对于图书、电影和音乐兴趣而搭建的社交网站，由杨勃创立于2005年。豆瓣网推崇算法，根据用户对音乐、书、电影等进行的操作，自动给出同类趣味和友邻推荐。基于记录和分享而生成的“用户价值”是豆瓣的核心竞争力。豆瓣网的一大特色是不做运营，用户自发组建的小组是豆瓣特有的文化和社区产物。

爬取豆瓣网上面的电影评论数据具有很重要的作用。电影评论数据是NLP（自然语言处理）重要的数据。通过电影评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。既然数据这么重要，废话不多说，紧接着就开始电影数据的爬取。

这次选取的实例电影是《我不是药神》：它是由文牧野执导，宁浩、徐峥共同监制的剧情片，徐峥、周一围、王传君、谭卓、章宇、杨新鸣等主演。该片于2018年7月5日在中国上映。影片讲述了神油店老板程勇从一个交不起房租的男性保健品商贩，一跃成为印度仿制药“格列宁”独家代理商的故事，这里先放一张海报。
　

下一篇：没有了