python爬虫练习1
2020-02-28 18:40 作者:一心想当网红的李老师 | 我要投稿
爬虫要注意网站让不让你爬,不然要坐牢的优。
这个学习一下爬虫,查找新冠肺炎的数据,这个应该是可以的。
看一下源代码,打开网页Ctrl+U会跳出源代码。确认有数据。
爬虫需要requests模块,在python里面确认一下。
先调试一下可不可以爬到数据,代码如下:
import requests
url= 'view-source:https://voice.baidu.com/act/newpneumonia/newpneumonia/from=osari_pc_3'
strhtml=requests.get(url)
print(strhtml.text)
运行没有报错,可以把网页源代码爬下来的。But源码里面很多网页的信息,怎么找到自己要的就是下一步了。
更换数据源为开放的API,主要是来源数据量少,要的都有。
import requests
url='https://interface.sina.cn/news/wap/fymap2020_data.d.json'
strhtml=requests.get(url)
print(strhtml.text)
感觉可以,但是里面文字没有处理,中文不显示。