欢迎光临散文网 会员登陆 & 注册

你知道学习python爬虫需要掌握的库吗?

2021-03-26 16:49 作者:薇薇说UG  | 我要投稿


 



学习 Pyt hon,大概 每个人 是从 爬虫 开始吧  

网络 类似 资源 毕竟 丰富 开源项目 很多 

Pyt hon学习网络 爬行 主要 分为 3大块 抓取 分析 存储 

浏览器 输入 url 回车 时,会出现 什么情况 

简而言之 这个 过程 分为 以下 四个 步骤 

找出 域名 对应 IP地址 

请求 发送到 IP 对应 服务器 

伺服器 回应 要求 返回 网页内容 

浏览者 分析 网页内容 

因此 研究 爬行动物 需要 掌握 哪些 库呢?

一般性 

1.url lib-Web 库(stdlib )

2re quests -NeTwo rk库。

3.grab -基于 pycurl 网络 库。

4p ycurl -NeTwo rkLibrary (绑定 libcurl )。

url lib3-Pyt honHTT P库,安全 连接池 post 支持 文件 高可用性 

6.http lib2-NeTwo rkLibrary 

7. RoboBrows er ——一个 简单 的、极具 Pyt hon风格 的Pyt hon库,不需要 单独 使用 浏览器 就可以在网上 浏览 

8.MechanicalSoup-Pyt hon库与网站 自动 交互 

9m echanize-有状态 的,可编程 网络 浏览 库。

10 .soc ke t-stdlib ,即底层 网络接口 

11 .Unirest for Pyt hon–Unirest 一组 轻量级 HTT P库,可用于 多种语言 

12 .hyp er -HTT P/2客户机 Pyt hon。

13 .PySocks——SocksiPy的最新版本 积极 维护 包括 修复 错误 以及 其他 一些 特性  

直接 替换 soc ke t模块 

网路 爬行 框架

一、全功能 爬虫 

Grab -网络 爬虫框架(基于 pycurl /multicur)。

脚本 网络 爬虫框架(基于 Twisted ),Pyt hon3不受 支持 

Pyspider——一种 功能强大 爬虫 系统 

Cola——分布式 爬行 框架 

二、其他 

portia ——基于 Scrapy的视觉 爬虫 

re stkit——用于 Pyt hon的HTT P资源 套件  

这使您能够 轻松 访问 HTT P资源 ,并在其周围 创建对象 

demi urge——基于 PyQuery的微爬框架 

HTML /XM L解析 程序

一、一般性 

lxml-编写 高效 HTML /XM L处理 库的C语言  

支援 XPath。

cssselect——解析 DOM 树和CSS 选择器 

pyquery——解析 DOM 树和jQuery选择符 

beautifulSoup–低效率 HTML /XM L处理 库,一个 纯Pyt hon实现 

Html5l ib ——根据 WHATWG 规范 HTML /XM L文档 生成 DOM  

目前 所有 浏览器 使用 了该规范 

Feedparser-RSS解析 /ATOMfeeds 

Mark upSafe 提供 一个 用于 XM L/HTML /XHTML的安全 转义 字符串 

xml todict ——一个 Pyt hon模块 ,它使您在处理 XM L时有处理 JSON的感觉 

xh tml2p df -HTML /CSS PDF 转换 

简单 实现 ——很容易 实现 XM L文件转换 成Pyt hon对象 

二、清理 

清除 -清除 HTML (需要 html5 lib)。

Sanitize——给混乱 数据 世界 带来 光明 

文字处理

用来 分析 处理 简单 文字 的库。

普通 

Difflib–(Pyt hon标准库 )可以 帮助 进行 区分 

线性化 -快速 计算 线性化 距离 字符串 相似度 

Fuzzy wuzzy——模糊匹配字符串 

esmre re gex加速器 

自动 对Unicode文本 进行 整理 ,以减少 碎片 数量 

天然 语言 处理

用来 处理 人类 语言 的库。

编写 Pyt hon程序 ,以最好 平台 处理 人类 语言 数据 

模式 ——Pyt hon的网络 挖掘 模块  

拥有 自然语言 处理 机器学习 工具 

文本 块——提供 一致 AP I来进行 自然语言 处理 任务  

它是建立 在NLTK和Pattern巨人 肩膀 之上 的。

Jie ba——中文分词 工具 

Snow NLP——中文 文字处理 类库 

loso——另一种中文 分类法 

浏览 自动 模拟 

selenium–自动运行 真正 浏览器 (Chrome,Firefox,Opera,IE )。

ghost .py-封装 PyQt的web kit (需要 PyQT)。

Spynner–封装 PyQt的web kit (PyQT是必需 的)。

spl inter -通用 AP I浏览器 模拟器 (seleniumweb驱动 ,Zope ,Django客户端 )。

多项 处理

线程 在Pyt hon标准库 运行 ,threading  

非常适合 I/O密集型 任务  

由于 pythonGIL,不适合 CP U绑定 任务 

Multiprocessing ——运行 多进程的标准 Pyt hon库。

异步 任务 队列 /作业 队列 ,它基于 分布式 消息传递 

配置 -配置 -配置 模块 提供 调用 异步 执行 高级 接口 

同步

同步 网络编程 

asyncio –(高于 Pyt hon3.4 +版本 的Pyt hon标准库 )异步 I/O、时间循环、协作 程序 任务 

Twist ed ——基于 事件驱动 网络 引擎 框架 

tor nado——网络 框架 异步 网络 库。

发布 事件驱动 的Pyt hon并发 框架 

Die sel ——Pyt hon基于 绿色 事件 的I/O框架 

geven t——一个 基于 协程 的Pyt hon网络 库,使用 gre enlet 

ventlet 支持 WSGI的异步 框架 

Tomorro w——一个 完美 异步 代码 修饰语 法。

排队 

异步 任务 队列 /作业 队列 ,它基于 分布式 消息传递 

Huey——小的多线程 任务 队列 

使用 red is &Gevent 的Pyt hon分布式 工作任务 队列 ,mrq-Mr .Queue-。

RQ ——一个 基于 Redis的轻量级 任务 队列 管理器 

simpleq——基于 Amazon SQ S的队列 简单 ,可无限 扩展 

Pyt hon-gearman——Gearman 的Pyt honAP I。

Picl oud——Pyt hon代码 云中 执行 

dominoup.com ——云执行 R,Pyt hon和matlab代码 

页面 内容 抽取 

获取 Web 内容 的库。

网页 文字 元数据 

新页面 ——使用 Pyt hon来获取 新闻 提取 文章 以及 内容 进行 规划 

html2t ext–将HTML 文本 转换 Mark dow n格式 文本 

python-goose-HTML 目录 /文章 抽取 器。

lass ie ——人性化 网页内容 检索工具 

欢迎大家交流学习。


你知道学习python爬虫需要掌握的库吗?的评论 (共 条)

分享到微博请遵守国家法律