欢迎光临散文网 会员登陆 & 注册

在大数据时代,数据科学工程师需要用到多少数学知识?

2020-08-18 10:56 作者:自学Python的小姐姐呀  | 我要投稿

许多出色的计算工具可供数据科学家执行其工作。但是,数学技能在数据科学和机器学习中仍然是必不可少的,因为这些工具只会是黑匣子,如果没有理论基础,您将无法问这些问题。


一,引言

如果您是数据科学的追求者,那么您无疑会想到以下问题:

我可以成为很少或没有数学背景的数据科学家吗?
数据科学中哪些基本数学技能很重要?

有很多好的软件包可用于构建预测模型或用于生成数据可视化。用于描述性和预测性分析的一些最常见的软件包包括:

  • Ggplot2

  • Matplotlib

  • Seaborn

  • Scikit学习

  • 插入符号

  • TensorFlow

  • 火炬

  • 凯拉斯

借助这些软件包,任何人都可以构建模型或产生数据可视化。但是,扎实的数学背景知识对于微调模型以生成具有最佳性能的可靠模型至关重要。建立模型是一回事,解释模型并得出可用于数据驱动决策的有意义结论是另一回事。重要的是,在使用这些软件包之前,您必须了解每个软件包的数学基础,这样才能避免将这些软件包仅用作黑盒工具。

二。案例研究:建立多元回归模型

假设我们将要建立一个多元回归模型。在此之前,我们需要问自己以下问题:

我的数据集有多大?
我的特征变量和目标变量是什么?
哪些预测器特征与目标变量最相关?
哪些功能很重要?
我应该扩展我的功能吗?
我的数据集应如何划分为训练和测试集?
什么是主成分分析(PCA)?
我应该使用PCA删除冗余功能吗?
如何评估我的模型?我应该使用R2分数,MSE还是MAE?
如何提高模型的预测能力?
我应该使用正则回归模型吗?
回归系数是多少?
什么是截距?
我应该使用非参数回归模型,例如KNeighbors回归还是支持向量回归?
我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?

没有良好的数学背景,您将无法解决上面提出的问题。最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。因此,作为数据科学的追求者,您必须花时间研究数据科学和机器学习的理论和数学基础。您能否构建可应用于实际问题的可靠且有效的模型,取决于您的数学技能如何。要了解如何在构建机器学习回归模型中应用数学技能,需要学习 机器学习过程教程。

现在让我们讨论数据科学和机器学习所需的一些基本数学技能。

三,数据科学和机器学习的基本数学技能

1.统计和概率

统计和概率用于特征的可视化,数据预处理,特征转换,数据归因,降维,特征工程,模型评估等。

以下是您需要熟悉的主题: 均值,中位数,众数,标准差/方差,相关系数和协方差矩阵,概率分布(二项式,泊松,法线),p值,贝叶斯定理(精度,召回率,正预测值,负预测值,混淆矩阵,ROC曲线),中心极限定理,R_2得分,均方误差(MSE),A / B测试,蒙特卡洛模拟

2.多变量微积分

大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。

这是您需要熟悉的主题: 几个变量的函数;导数和梯度;步进功能,Sigmoid函数,Logit函数,ReLU(整流线性单元)功能;成本函数;功能图;函数的最小值和最大值

3.线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵。线性代数用于数据预处理,数据转换,降维和模型评估。

这是您需要熟悉的主题: 向量;向量的范数;矩阵 转置矩阵 矩阵的逆;矩阵的行列式;矩阵的痕迹;点积;特征值; 特征向量

4.优化方法

大多数机器学习算法通过最小化目标函数来执行预测建模,从而学习必须应用于测试数据的权重才能获得预测标签。

这是您需要熟悉的主题: 成本函数/目标函数;似然函数;错误功能;梯度下降算法及其变体(例如,随机梯度下降算法)

IV。总结与结论

总而言之,我们讨论了数据科学和机器学习所需的基本数学和理论技能。有几门免费的在线课程将教您数据科学和机器学习所需的必要数学技能。作为数据科学的有抱负者,请务必牢记数据科学的理论基础对于构建高效且可靠的模型至关重要。因此,您应该投入足够的时间来研究每种机器学习算法背后的数学理论。


在大数据时代,数据科学工程师需要用到多少数学知识?的评论 (共 条)

分享到微博请遵守国家法律