欢迎光临散文网 会员登陆 & 注册

c语言库libtidy-网页源码解析

2023-07-04 17:49 作者:老师明明可以靠颜值  | 我要投稿

它的常见用途是用来规整HTML,纠正HTML书写中的格式不规范的错误。对于XML主要纠正标签不匹配的错误。
还提供一整套的接口,利用这些建立在标准C之上接口,可以很方便的把标记语言文档处理成一棵Dom树(Document Object Model),利用API对于DOM的节点名,节点值, 属性名,属性值可以很方便的遍历。如果用它来做网页信息抽取,应该是比较良好的工具。

下面是分析网页的例子:


c语言库libtidy-网页源码解析的评论 (共 条)

分享到微博请遵守国家法律