爬虫python案例1
如何使用 Python 爬虫库 BeautifulSoup 和 requests 进行网页数据抓取。
首先,您需要安装这些库。使用 pip 工具安装即可:
pip install requests beautifulsoup4
接下来,我们可以编写一个简单的爬虫程序,来抓取指定网页上的标题和正文。这里我们以中国日报网站为例:
import requests
from bs4 import BeautifulSoup
# 指定要抓取的网页 URL
url = 'http://www.chinadaily.com.cn/'
# 发送请求获取网页内容
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')
# 获取网页标题
title = soup.title.string
print('网页标题:', title)
# 获取网页正文
body = soup.body.get_text()
print('网页正文:', body)
在这个程序中,我们首先使用 requests 库向指定的网页 URL 发送请求,获取网页内容。然后使用 BeautifulSoup 库解析网页内容,并使用 get_text() 方法提取网页正文。
您可以根据需要修改这个程序,实现更复杂的网页数据抓取功能。需要注意的是,进行网页数据抓取时应遵守网站的规定和法律法规,不得进行非法、恶意的抓取行为。