python入门数据挖掘-数据爬取总结

2023-02-21 10:50 作者:寒冰之雪 0人读过 | 我要投稿

from time import *import refrom requests import *headers={'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/110.0"}url='https://baijiahao.baidu.com/s?id=1758250285871602861'def 代码爬取及过滤部分(url): try: res=get(url,headers=headers,timeout=10).text '''有时访问一个网址，可能等待很久都没有反应，由于无法获得网页源代码程序就会一直等待，呈现“假死”状态。为了避免陷入无限的等待之中，需要设置访问超时也就是说，如果访问一个网址的等待响应时间超过指定秒数，就报出异常，停止访问 ''' r=re.findall('<p .*?>(.*?)</p>',res,re.S) return r except: return 0def 结果部分(r): a=1 list=[] for i in r: list.append(str(a)+'.'+i) a+=1 return listdef 保存结果部分(list): f=open('结果.txt','w') for i in list: f.write(i+'\n') f.close()def 主函数部分(): u=代码爬取及过滤部分(url) list=结果部分(u) 保存结果部分(list)while True: 主函数部分() sleep(100)

标签：

python入门数据挖掘-数据爬取总结

python入门数据挖掘-数据爬取总结的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

python入门数据挖掘-数据爬取总结

本文作者的其他文章

python入门数据挖掘-数据爬取总结的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

python入门数据挖掘-数据爬取总结的评论 (共条)