”重头戏“爬虫python案例3
MOOC(大规模开放在线课程)平台上的课程信息是公开的,可以通过爬虫程序进行获取。下面是一个简单的Python爬虫程序示例,用于从MOOC平台爬取课程信息:
import requests
from bs4 import BeautifulSoup
url = "https://www.icourse163.org/category/all"
# 使用requests库向URL发送GET请求,并获取响应
response = requests.get(url)
# 使用BeautifulSoup库解析响应内容
soup = BeautifulSoup(response.text, "html.parser")
# 从HTML文档中提取课程信息
courses = soup.find_all("a", {"class": "course-card"})
for course in courses:
course_name = course.find("h3", {"class": "course-card-name"}).get_text()
course_desc = course.find("p", {"class": "course-card-desc"}).get_text()
course_url = course.get("href")
print(f"课程名称:{course_name}\n课程描述:{course_desc}\n课程链接:{course_url}\n")
此程序使用requests库向MOOC平台发送GET请求,并使用BeautifulSoup库解析响应内容,从HTML文档中提取课程信息,并打印出来。请注意,在实际使用中,需要注意爬虫的频率和数据使用的合法性,以避免触犯相关法律和道德规范。