python基础教程（十五）：Python和Web

屏幕抓取想要抓取网页信息，可以用urllib和正则表达式做到：from urllib import urlopenimport rep = re.compile('<h3><a .*?><a .*? href="(.*?)">(.*?)</a>')text = urlopen('http://python.org/community/j...

weixin_30747253

62人浏览 · 2018-03-07 09:19:00

weixin_30747253 · 2018-03-07 09:19:00 发布

屏幕抓取

想要抓取网页信息，可以用urllib和正则表达式做到：

from urllib import urlopen
import re

p = re.compile('<h3><a .*?><a .*? href="(.*?)">(.*?)</a>')
text = urlopen('http://python.org/community/jobs').read()
for url, name in p.findall(text):
    print '%s (%s)'%(name, url)

正则表达式的模式相对固定，下面我们介绍Tidy和XHTML解析

Tidy和XHTML解析

XHTML是HTML最新的方言，是XML的一种形式。

tidy 是什么

tidy是用来修复不规范且有些随意的HTML文档的工具。

XHTML和HTML区别

xhtml对显示关闭更加严格

转载于:https://www.cnblogs.com/drawon/p/8520482.html

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

一文解决Cellphonedb单细胞互作分析及可视化作图（2）

开放原子开发者工作坊

[工具使用]——时序图与UML类图

开放原子开发者工作坊

CTFHub技能树 Web-SQL注入详解

整数型注入我们输入 1不断尝试发现闭合方式就是 1 ，整数型存在两列order by 2存在两个注入点/?id=-1 union select 8,9爆库，当前数据库为sqli/?id=-1 union select 8,database()爆出所有表名,这里我们需要吧sqli转换为16进制/?id=-1 union select 8,group_concat(table_name) from i