亲测各种java的html解析器 目标:解析成Document并且能使用XPathAPI, Cobra胜出
正在做一个网站分析工具,需要一个html解析器,目标是解析html文档到org.w3c.dom.Document,并且要能使用XPathAPI 进行节点查找。今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。列一下今天侧过的开源库:Cobra [color=orange]很不错,能完成任务[/color]HTML Parser 不能解析成DocumentJ...
·
正在做一个网站分析工具,需要一个html解析器,目标是解析html文档到org.w3c.dom.Document,并且要能使用XPathAPI 进行节点查找。
今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。
列一下今天侧过的开源库:
Cobra [color=orange]很不错,能完成任务[/color]
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用
今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。
列一下今天侧过的开源库:
Cobra [color=orange]很不错,能完成任务[/color]
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献1条内容
所有评论(0)