爬虫python案例1

2023-02-22 18:35 作者:四季养花 0人读过 | 我要投稿

如何使用 Python 爬虫库 BeautifulSoup 和 requests 进行网页数据抓取。

首先，您需要安装这些库。使用 pip 工具安装即可：

pip install requests beautifulsoup4

接下来，我们可以编写一个简单的爬虫程序，来抓取指定网页上的标题和正文。这里我们以中国日报网站为例：

import requests

from bs4 import BeautifulSoup

# 指定要抓取的网页 URL

url = 'http://www.chinadaily.com.cn/'

# 发送请求获取网页内容

response = requests.get(url)

# 解析网页内容

soup = BeautifulSoup(response.content, 'html.parser')

# 获取网页标题

title = soup.title.string

print('网页标题：', title)

# 获取网页正文

body = soup.body.get_text()

print('网页正文：', body)

在这个程序中，我们首先使用 requests 库向指定的网页 URL 发送请求，获取网页内容。然后使用 BeautifulSoup 库解析网页内容，并使用 get_text() 方法提取网页正文。

您可以根据需要修改这个程序，实现更复杂的网页数据抓取功能。需要注意的是，进行网页数据抓取时应遵守网站的规定和法律法规，不得进行非法、恶意的抓取行为。

标签：

爬虫python案例1的评论 (共条)