你知道学习python爬虫需要掌握的库吗？

2021-03-26 16:49 作者:薇薇说UG 0人读过 | 我要投稿

学习 Pyt hon，大概每个人都是从爬虫开始吧。

网络上类似的资源毕竟很丰富，开源项目也很多。

Pyt hon学习网络爬行器主要分为 3大块：抓取、分析、存储。

在浏览器中输入 url 后回车时，会出现什么情况？

简而言之，这个过程分为以下四个步骤：

找出域名对应的IP地址。

将请求发送到 IP 对应的服务器。

伺服器回应要求，返回网页内容。

浏览者分析网页内容。

因此，研究爬行动物需要掌握哪些库呢？

一般性：

1.url lib-Web 库(stdlib )

2re quests -NeTwo rk库。

3.grab -基于 pycurl 的网络库。

4p ycurl -NeTwo rkLibrary (绑定 libcurl )。

url lib3-Pyt honHTT P库，安全的连接池，post 支持文件，高可用性。

6.http lib2-NeTwo rkLibrary 。

7. RoboBrows er ——一个简单的、极具 Pyt hon风格的Pyt hon库，不需要单独使用浏览器就可以在网上浏览。

8.MechanicalSoup-Pyt hon库与网站自动交互。

9m echanize-有状态的，可编程的网络浏览库。

10 .soc ke t-stdlib ，即底层网络接口。

11 .Unirest for Pyt hon–Unirest 是一组轻量级 HTT P库，可用于多种语言。

12 .hyp er -HTT P/2客户机 Pyt hon。

13 .PySocks——SocksiPy的最新版本，积极维护，包括修复错误，以及其他一些特性。

直接替换为soc ke t模块。

网路爬行器框架

一、全功能爬虫。

Grab -网络爬虫框架(基于 pycurl /multicur)。

脚本 –网络爬虫框架(基于 Twisted ),Pyt hon3不受支持。

Pyspider——一种功能强大的爬虫系统。

Cola——分布式爬行框架。

二、其他。

portia ——基于 Scrapy的视觉化爬虫。

re stkit——用于 Pyt hon的HTT P资源套件。

这使您能够轻松地访问 HTT P资源，并在其周围创建对象。

demi urge——基于 PyQuery的微爬框架。

HTML /XM L解析程序

一、一般性。

lxml-编写高效的HTML /XM L处理库的C语言。

支援 XPath。

cssselect——解析 DOM 树和CSS 选择器。

pyquery——解析 DOM 树和jQuery选择符。

beautifulSoup–低效率的HTML /XM L处理库，一个纯Pyt hon实现。

Html5l ib ——根据 WHATWG 规范为HTML /XM L文档生成 DOM 。

目前，所有浏览器都使用了该规范。

Feedparser-RSS解析 /ATOMfeeds 。

Mark upSafe –提供了一个用于 XM L/HTML /XHTML的安全转义字符串。

xml todict ——一个 Pyt hon模块，它使您在处理 XM L时有处理 JSON的感觉。

xh tml2p df -HTML /CSS 到PDF 的转换。

简单实现 ——很容易实现将XM L文件转换成Pyt hon对象。

二、清理。

清除 -清除 HTML (需要 html5 lib)。

Sanitize——给混乱的数据世界带来光明。

文字处理

用来分析和处理简单文字的库。

普通。

Difflib–(Pyt hon标准库 )可以帮助进行区分。

线性化 -快速计算线性化距离和字符串相似度。

Fuzzy wuzzy——模糊匹配字符串。

esmre –re gex加速器。

自动对Unicode文本进行整理，以减少碎片的数量。

天然语言处理

用来处理人类语言的库。

编写 Pyt hon程序，以最好的平台处理人类语言的数据。

模式 ——Pyt hon的网络挖掘模块。

拥有自然语言处理、机器学习等工具。

文本块——提供一致的AP I来进行自然语言处理任务。

它是建立在NLTK和Pattern巨人肩膀之上的。

Jie ba——中文分词工具。

Snow NLP——中文文字处理类库。

loso——另一种中文分类法。

浏览自动和模拟。

selenium–自动运行真正的浏览器 (Chrome,Firefox,Opera,IE )。

ghost .py-封装 PyQt的web kit (需要 PyQT)。

Spynner–封装 PyQt的web kit (PyQT是必需的)。

spl inter -通用 AP I浏览器模拟器 (seleniumweb驱动，Zope ,Django客户端 )。

多项处理

线程在Pyt hon标准库中运行，threading 。

非常适合 I/O密集型任务。

由于 pythonGIL，不适合 CP U绑定任务。

Multiprocessing ——运行多进程的标准 Pyt hon库。

异步任务队列 /作业队列，它基于分布式消息传递。

配置 -配置 -配置模块提供了调用异步执行的高级接口。

非同步

非同步网络编程库

asyncio –(高于 Pyt hon3.4 +版本的Pyt hon标准库 )异步 I/O、时间循环、协作程序和任务。

Twist ed ——基于事件驱动的网络引擎框架。

tor nado——网络框架和异步网络库。

发布 –事件驱动的Pyt hon并发框架。

Die sel ——Pyt hon基于绿色事件的I/O框架。

geven t——一个基于协程的Pyt hon网络库，使用 gre enlet 。

ventlet –支持 WSGI的异步框架。

Tomorro w——一个完美的异步代码修饰语法。

排队。

异步任务队列 /作业队列，它基于分布式消息传递。

Huey——小的多线程任务队列。

使用 red is &Gevent 的Pyt hon分布式工作任务队列，mrq-Mr .Queue-。

RQ ——一个基于 Redis的轻量级任务队列管理器。

simpleq——基于 Amazon SQ S的队列，简单，可无限扩展。

Pyt hon-gearman——Gearman 的Pyt honAP I。

云

Picl oud——Pyt hon代码在云中执行。

dominoup.com ——云执行 R,Pyt hon和matlab代码。

页面内容抽取。

获取 Web 内容的库。

网页的文字与元数据。

新页面 ——使用 Pyt hon来获取新闻、提取文章以及对内容进行规划。

html2t ext–将HTML 文本转换为Mark dow n格式文本。

python-goose-HTML 目录 /文章抽取器。

lass ie ——人性化的网页内容检索工具。

欢迎大家交流学习。

标签：

你知道学习python爬虫需要掌握的库吗？

你知道学习python爬虫需要掌握的库吗？的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

你知道学习python爬虫需要掌握的库吗？

本文作者的其他文章

你知道学习python爬虫需要掌握的库吗？的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

你知道学习python爬虫需要掌握的库吗？的评论 (共条)