python爬虫的基本概念

网络爬虫（又称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者）。如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的猎物数据。

yul364102

303人浏览 · 2022-09-30 10:26:33

yul364102 · 2022-09-30 10:26:33 发布

一、为什么要学习爬虫

学习爬虫，可以私人订制一个搜索引擎，并且可以对搜索引擎的工作原理进行更深层次地理解。

当下是大数据时代，在这个信息爆炸的时代，我们可以利用爬虫获取大量有价值的数据，通过数据分析获得更多隐性的有价值的规律。

方便就业。从就业的角度来说，爬虫工程师目前来说属于紧缺人才，并且薪资待遇普遍较高所以，深层次地掌握这门技术，对于就业来说，是非常有利的。（而且辅助工作也是非常不错的，各种接单平台，爬虫的单子多且简单，收入也很可观哦！）

用途广泛。针对电商来说，抓取各种商品信息就可以做到精细化运营，精准营销。对新闻资讯平台和搜索引擎来说，抓取其他平台原创新闻稿，进行热点分析，就可以合理筛选优质内容，打造更有价值的新闻平台。（还可以抓取车票、爬取论文素材等等。已经与我们的生活结合在一起了。）

在通往全栈程序员的道路上，爬虫是必不可少的一项技术。

二、爬虫介绍

三、爬虫分类 (通用爬虫和聚焦爬虫)

通用爬虫。通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo 等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫。聚焦爬虫，是 “面向特定主题需求” 的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。如果你依然在编程的世界里迷茫，不知道自己的未来规划可以加入我们的 Python 月球号去762 掉459 文 510 字看看前辈们如何学习的！交流经验！自己是一名高级 python 开发工程师，从基础的 python 脚本到 web 开发、爬虫、django、数据挖掘等，零基础到项