一淘搜索之网页抓取系统分析与实现（3）—scrapy+webkit & mysql+django

结构图scrapy+webkit：如结构图③。scrapy不能实现对javascript的处理，所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapy+webkit的使用后期进行分析。scrapy+django:如结构图④。django实现的配置界面主要是对抓取系统的管理和配置，

young-hz

7597人浏览 · 2014-07-28 11:42:58

young-hz · 2014-07-28 11:42:58 发布

结构图

scrapy+webkit：

如结构图③。
scrapy不能实现对javascript的处理，所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.

关于scrapy+webkit的使用后期进行分析。

scrapy+django:

如结构图④。
django实现的配置界面主要是对抓取系统的管理和配置，包括：站点feed、页面模块抽取、报表系统的反馈等等。

请直接参考：
[1]快速构建实时抓取集群

[2]淘宝摘星

文章链接：http://blog.csdn.net/u012150179/article/details/38227079

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

操作系统大会&openEuler Summit 2024参会指南，请查收！

开放原子开发者工作坊

推动工业软件核心技术攻关，开源工业软件算法集成大赛正式启动！

推动工业软件核心技术攻关，开源工业软件算法集成大赛正式启动！

开放原子开发者工作坊

第二届openEuler生态大会（中国·湖南）成功举办

10月30日，第二届openEuler生态大会（中国·湖南）成功举办。

开放原子开发者工作坊

所有评论(0)

查看更多评论

young-hz

已为社区贡献3条内容