一只简单的网络爬虫（基于linux C/C++）————开篇

缱绻的西格玛

7667人浏览 · 2015-09-22 10:31:06

缱绻的西格玛 · 2015-09-22 10:31:06 发布

最近学习开发linux下的爬虫，主要是参考了该博客及其他一些网上的资料。网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。目前有一些比较出名的一些开源爬虫，开源爬虫Labin，Nutch，Neritrix介绍和对比见这里
下面说的爬虫是作为一个新手来说的，高手请勿喷
（1）该爬虫就功能来说比较单一，但是作为一个个人的学习项目来说又是相对完整的。
（2）该爬虫可优化的地方太多，很多的方案不一定是最好的，所以该爬虫仅仅适合于新手的学习
（3）这个算是一个完整的项目，基于linux的，虽然是C风格的，但是里面用到了很多C++的东西，特别是几种容器
（4）因为我也以此项目来学习的，我觉得作为学习项目还是具有一定的学习价值：
通过此项目，我们将学会几种思想：软件框架思想，代码复用思想，迭代开发思想，增量开发思想
通过此项目，我们将会掌握并巩固以下技术要点：
1、Linux进程及调度 2、Linux服务 3、信号 4、Socket编程 5、Linux多任务 6、文件系统 7、正则表达式
8、shell脚本 9、动态库
另外我们还会学到一些额外的的知识：
1、如何使用HTTP协议 2、如何设计一个系统 3、如何选择和使用开源项目 4、如何选择I/O模型 5、如何进行系统分析
6、如何进行容错处理 7、如何进行系统测试 8、如何对源代码进行管理