欢迎光临散文网 会员登陆 & 注册

Python和requests库结合采集豆瓣短评

2023-11-08 15:54 作者:华科云商小彭  | 我要投稿


Python是一种常用的程序语言,今天我们就用Python和requests库结合,来写一个采集豆瓣短评的程序,非常的简单,一起来学学吧。

```python

import requests

from bs4 import BeautifulSoup

# 设置代理

proxy = f'http://{proxy_host}:{proxy_port}'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

reviews = soup.find_all('span', class_='short')

# 打印短评

for review in reviews:

print(review.text)

```

每一步的解释如下:

1. 导入需要的库(requests和BeautifulSoup)。

2. 设置代理(proxy_host和proxy_port)。

3. 使用requests库的get方法,向豆瓣图书top250页面发送GET请求,同时设置headers和proxies。

4. 使用BeautifulSoup库解析返回的HTML。

5. 使用find_all方法,找到所有class为'short'的span标签,这些标签包含短评信息。

6. 使用for循环,打印出每个短评。


Python和requests库结合采集豆瓣短评的评论 (共 条)

分享到微博请遵守国家法律