python爬虫——爬取淘票票正在热映电影

今天正好学习了一下python的爬虫，觉得收获蛮大的，所以写一篇博客帮助想学习爬虫的伙伴们。这里我就以一个简单地爬取淘票票正在热映电影为例，介绍一下一个爬虫的完整流程。首先，话不多说，上干货——源代码1 from bs4 import BeautifulSoup2 import requests3 import json45 #伪装成浏览器请求6 ...

weixin_30740581

980人浏览 · 2019-06-05 17:47:00

weixin_30740581 · 2019-06-05 17:47:00 发布

今天正好学习了一下python的爬虫，觉得收获蛮大的，所以写一篇博客帮助想学习爬虫的伙伴们。

这里我就以一个简单地爬取淘票票正在热映电影为例，介绍一下一个爬虫的完整流程。

首先，话不多说，上干货——源代码

 1 from bs4 import BeautifulSoup
 2 import requests
 3 import json
 4 
 5 #伪装成浏览器请求
 6 headers={
 7     'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
 8     'Referer':'https://www.taopiaopiao.com/showList.htm?spm=a1z21.3046609.header.4.1d69112aGq86y0&n_s=new'
 9 }
10 
11 #获取网页的代码
12 def getPage(url):
13     try:
14         response=requests.get(url)
15         if response.status_code==200:   #http状态码，200表示请求成功
16             return response.text
17         else:
18             return None
19     except Exception:
20         return None
21 
22 def getInfo(html):
23     soup=BeautifulSoup(html,'lxml')    #创建bs对象 bs是使用的python默认的解析器，lxml也是解析器
24     items=soup.select('div .movie-card-wrap')            #去网站的控制台找需要内容的上级标签元素，注意找的时候讲究方法，爬取的内容大部分都是有规律的，找到要爬取内容后，找你要爬的内容的父标签，这里找到div标签,然后后面的.movie-card-wrap是类名，当然也可以按照id查找，不会的自行百度soup.select
25     i=1
26     for item in items:
27         name=item.find(name='div',class_='movie-card-name').get_text().strip()     #这个是找你要爬取内容的标签和它的类
28         info=item.find(name='div',class_='movie-card-list').get_text().strip()
29         print(str(i)+' '+'电影名:'+name+'\n'+info+'\n')
30         i=i+1
31 
32 url='https://www.taopiaopiao.com/showList.htm?spm=a1z21.3046609.header.4.1d69112aGq86y0&n_s=new'
33 html=getPage(url)
34 getInfo(html)