自从学了Python,知道了爬虫这个东东,去百度下载图片再也不用一张一张的下载了,可真是方便了不少。

撸代码前的分析:由于百度图片的网页是个动态页面,图片的url是运行时加载和渲染的,查看网页源代码是无法看到的,此时就可以通过抓包工具查看。

打开谷歌自带的浏览器抓包工具,会发现一条acjson?tn=…的数据,点开后点击Preview会看到对应的json数据,里面有30条图片的数据:

然后打开Headers通过分析,得到一条结果:headers下的Query String Parameters中的字段大多保持不变,只有当图片加载时,pn字段以30的步长增加,所以通过修改pn的值可以控制页面

到此为止分析基本完成,下面贴出代码,更多功能期待你的完成

开始撸代码:

一:需要的模块:

二:封装json数据

三:完整代码

享受撸代码的成果

四:效果图:

初次发表博客,如有不合适的地方,敬请你的指点,多谢!!!

 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐