欢迎光临散文网 会员登陆 & 注册

python入门数据挖掘-数据爬取总结

2023-02-21 10:50 作者:寒冰之雪  | 我要投稿

from time import *import refrom requests import *headers={'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/110.0"}url='https://baijiahao.baidu.com/s?id=1758250285871602861'def 代码爬取及过滤部分(url):    try:        res=get(url,headers=headers,timeout=10).text        '''有时访问一个网址,可能等待很久都没有反应,由于无法获得网页源代码        程序就会一直等待,呈现“假死”状态。为了避免陷入无限的等待之中,需要设置访问超时        也就是说,如果访问一个网址的等待响应时间超过指定秒数,就报出异常,停止访问        '''        r=re.findall('<p .*?>(.*?)</p>',res,re.S)        return r    except:        return 0def 结果部分(r):    a=1    list=[]    for i in r:        list.append(str(a)+'.'+i)        a+=1    return listdef 保存结果部分(list):    f=open('结果.txt','w')    for i in list:        f.write(i+'\n')    f.close()def 主函数部分():    u=代码爬取及过滤部分(url)    list=结果部分(u)    保存结果部分(list)while True:    主函数部分()    sleep(100)


python入门数据挖掘-数据爬取总结的评论 (共 条)

分享到微博请遵守国家法律