Python爬虫JS逆向副业大王班:苑老师直播课2期
2023-07-19 11:13 作者:每天一个拼课小技巧__ | 我要投稿
在编写代码前,先谈谈确定目标与分析目标两个步骤
确定目标
确定抓取哪个网站哪个网页的哪部分数据。该实例要抓取百度百科雷军词条页面以及它相关词条页面的标题和简介。
分析目标
也就是抓取的策略,包含三部分。
URL格式
限定目标的范围,不然会抓取到很多不相关的页面。通过审查元素可知该实例的URL格式是
数据格式
本实例中就是分析所有词条中标题和简介所在标签的格式。通过审查元素得标题元素为 :class="lemmaWgt-lemmaTitle-title",简介元素为:class="lemma-summary"
网页的编码
要知道网页的编码才能够正常解析,不然乱码就解析不。通过审查元素网页的编码是UTF-8
编写代码