python爬虫练习1

爬虫要注意网站让不让你爬，不然要坐牢的优。

这个学习一下爬虫，查找新冠肺炎的数据，这个应该是可以的。

看一下源代码，打开网页Ctrl+U会跳出源代码。确认有数据。

爬虫需要requests模块，在python里面确认一下。

先调试一下可不可以爬到数据，代码如下：

import requests

url= 'view-source:https://voice.baidu.com/act/newpneumonia/newpneumonia/from=osari_pc_3'

strhtml=requests.get(url)

print(strhtml.text)

运行没有报错，可以把网页源代码爬下来的。But源码里面很多网页的信息，怎么找到自己要的就是下一步了。

更换数据源为开放的API，主要是来源数据量少，要的都有。

import requests

url='https://interface.sina.cn/news/wap/fymap2020_data.d.json'

strhtml=requests.get(url)

print(strhtml.text)

感觉可以，但是里面文字没有处理，中文不显示。

标签：

python爬虫练习1的评论 (共条)