它的常见用途是用来规整HTML,纠正HTML书写中的格式不规范的错误。对于XML主要纠正标签不匹配的错误。还提供一整套的接口,利用这些建立在标准C之上接口,可以很方便的把标记语言文档处理成一棵Dom树(Document Object Model),利用API对于DOM的节点名,节点值, 属性名,属性值可以很方便的遍历。如果用它来做网页信息抽取,应该是比较良好的工具。
下面是分析网页的例子: