对于程序要处理的网页,你需要查看它的 HTML 源代码。要做到这一点,在浏览器的任意网页上点击右键(或在 OS X 上Ctrl-点击),选择 View Source 或 View page source,查看该页的 HTML 文本(参见图 11-3)。这是浏览器实际接收到的文本。浏览器知道如何通过这个 HTML 显示或渲染网页。

 我强烈建议你查看一些自己喜欢的网站的HTML 源代码。在查看源代码时,如果你不能完全理解,也没有关系。你不需要完全掌握HTML,也能编写简单的 Web 抓取程序,毕竟你不是要编写自己的网站。只需要足够的知识,就能从已有的网站中挑选数据。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐