欢迎光临散文网 会员登陆 & 注册

爬虫python案例1

2023-02-22 18:35 作者:四季养花  | 我要投稿

如何使用 Python 爬虫库 BeautifulSoup 和 requests 进行网页数据抓取。

首先,您需要安装这些库。使用 pip 工具安装即可:

pip install requests beautifulsoup4

接下来,我们可以编写一个简单的爬虫程序,来抓取指定网页上的标题和正文。这里我们以中国日报网站为例:

import requests

from bs4 import BeautifulSoup


# 指定要抓取的网页 URL

url = 'http://www.chinadaily.com.cn/'


# 发送请求获取网页内容

response = requests.get(url)


# 解析网页内容

soup = BeautifulSoup(response.content, 'html.parser')


# 获取网页标题

title = soup.title.string

print('网页标题:', title)


# 获取网页正文

body = soup.body.get_text()

print('网页正文:', body)

在这个程序中,我们首先使用 requests 库向指定的网页 URL 发送请求,获取网页内容。然后使用 BeautifulSoup 库解析网页内容,并使用 get_text() 方法提取网页正文。

您可以根据需要修改这个程序,实现更复杂的网页数据抓取功能。需要注意的是,进行网页数据抓取时应遵守网站的规定和法律法规,不得进行非法、恶意的抓取行为。


爬虫python案例1的评论 (共 条)

分享到微博请遵守国家法律