《利用Python进行数据分析·第2版》第13章 Python建模库介绍

2018-05-06 00:04 作者:绝不原创的飞龙 0人读过 | 我要投稿

本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。

开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。

本章中，我会回顾一些pandas的特点，在你胶着于pandas数据规整和模型拟合和评分时，它们可能派上用场。然后我会简短介绍两个流行的建模工具，statsmodels和scikit-learn。这二者每个都值得再写一本书，我就不做全面的介绍，而是建议你学习两个项目的线上文档和其它基于Python的数据科学、统计和机器学习的书籍。

13.1 pandas与模型代码的接口

模型开发的通常工作流是使用pandas进行数据加载和清洗，然后切换到建模库进行建模。开发模型的重要一环是机器学习中的“特征工程”。它可以描述从原始数据集中提取信息的任何数据转换或分析，这些数据集可能在建模中有用。本书中学习的数据聚合和GroupBy工具常用于特征工程中。

优秀的特征工程超出了本书的范围，我会尽量直白地介绍一些用于数据操作和建模切换的方法。

阅读全文：http://t.cn/Rudcqkx

标签：

《利用Python进行数据分析·第2版》第13章 Python建模库介绍

13.1 pandas与模型代码的接口

《利用Python进行数据分析·第2版》第13章 Python建模库介绍的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

《利用Python进行数据分析·第2版》第13章 Python建模库介绍

13.1 pandas与模型代码的接口

本文作者的其他文章

《利用Python进行数据分析·第2版》第13章 Python建模库介绍的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

《利用Python进行数据分析·第2版》第13章 Python建模库介绍的评论 (共条)