欢迎光临散文网 会员登陆 & 注册

人工智能AI面试题-3.27请简单阐述下决策树、回归、SVM、神经⽹网络等算法

2023-10-13 20:58 作者:机器爱上学习  | 我要投稿

3.27 请简单阐述下决策树、回归、SVM、神经⽹网络等算法各⾃的优缺点? 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algorithms) 决策树算法(Decision Tree Algorithm) 回归(Regression) ⼈⼯神经⽹络(Artificial Neural Network) 深度学习(Deep Learning) ⽀持向量机(Support Vector Machine) 降维算法(Dimensionality Reduction Algorithms) 聚类算法(Clustering Algorithms) 基于实例的算法(Instance-based Algorithms) 贝叶斯算法(Bayesian Algorithms) 关联规则学习算法(Association Rule Learning Algorithms) 图模型(Graphical Models) 1. 正则化算法(Regularization Algorithms) 它是另⼀种⽅法(通常是回归⽅法)的拓展,这种⽅法会基于模型复杂性对其进⾏惩罚,它喜欢相对简单能够更好的泛化的模型。如:岭回归(Ridge Regression)、最⼩绝对收缩与选择算⼦(LASSO)、GLASSO、弹性⽹络(Elastic Net)、最⼩⾓回归(Least-Angle Regression)。优点是其惩罚会减少过拟合,总会有解决⽅法。缺点是惩罚会造成⽋拟合,很难校准。 2. 集成算法(Ensemble Algorithms) 集成⽅法是由多个较弱的模型集成模型组,其中的模型可以单独进⾏训练,并且它们的预测能以某种⽅式结合起来去做出⼀个总体预测。该算法主要的问题是要找出哪些较弱的模型可以结合起来,以及结合的⽅法。这是⼀个⾮常强⼤的技术集,因此⼴受欢迎。如:Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、层叠泛化(Stacked Generalization)(blending)、梯度推进机(Gradient Boosting Machines,GBM)、梯度提升回归树(Gradient Boosted Regression Trees, GBRT)、随机森林(Random Forest)。优点是:当先最先进的预测⼏乎都使⽤了算法集成。它⽐使⽤单个模型预测出来的结果要精确的多;缺点是需要⼤量的维护⼯作。 3. 决策树算法(Decision Tree Algorithm) 决策树学习使⽤⼀个决策树作为⼀个预测模型,它将对⼀个 item(表征在分⽀上)观察所得映射成关于该 item 的⽬标值的结论(表征在叶⼦中)。树模型中的⽬标是可变的,可以采⼀组有限值,被称为分类树;在这些树结构中,叶⼦表⽰类标签,分⽀表⽰表征这些类标签的连接的特征。例如:分类和回归树(Classification and Regression Tree,CART)、Iterative Dichotomiser 3(ID3)、C4.5 和 C5.0(⼀种强⼤⽅法的两个不同版本)。优点是容易解释、⾮参数型;缺点是趋向过拟合、可能或陷于局部最⼩值中、没有在线学习。 4. 回归(Regression)算法 回归是⽤于估计两种变量之间关系的统计过程。当⽤于分析因变量和⼀个多个⾃变量之间的关系时,该算法能提供很多建模和分析多个变量的技巧。具体⼀点说,回归分析可以帮助我们理解当任意⼀个⾃变量变化,另⼀个⾃变量不变时,因变量变化的典型值。最常见的是,回归分析能在给定⾃变   量的条件下估计出因变量的条件期望。回归算法是统计学中的主要算法,它已被纳⼊统计机器学习。⽐如普通最⼩⼆乘回归 (Ordinary Least Squares Regression,OLSR)、线性回归 (Linear Regression)、逻辑回归(Logistic Regression)、逐步回归(Stepwise Regression)、多元⾃适应回归样条(Multivariate Adaptive Regression Splines,MARS)、本地散点平滑估计(Locally Estimated Scatterplot Smoothing,LOESS)。优点是直接、快速、知名度⾼。缺点是要求严格的假设、需要处理异常值。 5. 人工神经网络 ⼈⼯神经⽹络是受⽣物神经⽹络启发⽽构建的算法模型。它是⼀种模式匹配,常被⽤于回归和分类问题,但拥有庞⼤的⼦域,由数百种算法和各类问题的变体组成。常见的例⼦有感知器、反向传播、Hopfield ⽹络、径向基函数⽹络(Radial Basis  Function Network,RBFN)。优点是在语⾳、语义、视觉、各类游戏(如围棋)的任务中表现极好,算法可以快速调整,适应新的问题。缺点是需要⼤量数据进⾏训练、训练要求很⾼的硬件配置、模型处于「⿊箱状态」,难以理解内部机制、元参数(Metaparameter)与⽹络拓扑选择困难。 6. 深度学习(Deep Learning) 深度学习是⼈⼯神经⽹络的最新分⽀,它受益于当代硬件的快速发展。众多研究者⽬前的⽅向主要集中于构建更⼤、更复杂的神经⽹络,⽬前有许多⽅法正在聚焦半监督学习问题,其中⽤于训练的⼤数据集只包含很少的标记。例⼦有深玻⽿兹曼机(Deep Boltzmann Machine,DBM)、Deep Belief Networks(DBN)、卷积神经⽹络(CNN)、Stacked Auto-Encoders。优缺点同神经⽹络。 7. 支持向量机(Support Vector Machines) 给定⼀组训练事例,其中每个事例都属于两个类别中的⼀个,⽀持向量机(SVM)训练算法可以在被输⼊新的事例后将其分类到两个类别中的⼀个,使⾃⾝成为⾮概率⼆进制线性分类器。SVM 模型将训练事例表⽰为空间中的点,它们被映射到⼀幅图中,由⼀条明确的、尽可能宽的间隔分开以区分两个类别。随后,新的⽰例会被映射到同⼀空间中,并基于它们落在间隔的哪⼀侧来预测它属于的类别。优点是在⾮线性可分问题上表现优秀。缺点是⾮常难以训练,很难解释。 8. 降维算法(Dimensionality Reduction Algorithms) 和集簇⽅法类似,降维追求并利⽤数据的内在结构,⽬的在于使⽤较少的信息总结或描述数据。这⼀算法可⽤于可视化⾼维数据或简化接下来可⽤于监督学习中的数据。许多这样的⽅法可针对分类和回归的使⽤进⾏调整。例⼦有主成分分析(Principal Component Analysis (PCA))、主成分回归(Principal Component Regression (PCR))、偏最⼩⼆乘回归(Partial Least Squares Regression (PLSR))、Sammon 映射(Sammon Mapping)、多维尺度变换(Multidimensional Scaling (MDS))、投影寻踪(Projection Pursuit)、线性判别分析(Linear Discriminant Analysis (LDA))、混合判别分析 (Mixture Discriminant Analysis (MDA)) 、 ⼆ 次 判 别 分 析 (Quadratic Discriminant Analysis (QDA))、灵活判别分析(Flexible Discriminant Analysis (FDA))。优点是可处理⼤规模数据集、⽆需在数据上进⾏假设;缺点是难以搞定⾮线性数据、难以理解结果的意义。 9. 聚类算法(Clustering Algorithms) 聚类算法是指对⼀组⽬标进⾏分类,属于同⼀组(亦即⼀个类,cluster)的⽬标被划分在⼀组  中,与其他组⽬标相⽐,同⼀组⽬标更加彼此相似(在某种意义上)。 例⼦有K-均值(k-Means)、k-Medians 算法、Expectation Maximization (EM)。 10. 最大期望算法(EM) 分层集群(Hierarchical Clustering)。优点是让数据变得有意义.缺点是结果难以解读,针对不寻常的数据组,结果可能⽆⽤。 11. 基于实例的算法(Instance-based Algorithms) 基于实例的算法(有时也称为基于记忆的学习)是这样学 习算法,不是明确归纳,⽽是将新的问题例⼦与训练过程中见过的例⼦进⾏对⽐,这些见过的例⼦就在存储器中。之所以叫基于实例的算法是因为它直接从训练实例中建构出假设。这意味这,假设的复杂度能随着数据的增长⽽变化:最糟的情况是,假设是⼀个训练项⽬列表,分类⼀个单独新实例计算复杂度为 O(n)例⼦有K 最近邻(k- Nearest Neighbor (kNN))、学习向量量化(Learning Vector Quantization (LVQ))、⾃组织映射(Self-Organizing Map (SOM))、局部加权学习(Locally Weighted Learning (LWL) )。优点是算法简单、结果易于解读。缺点是内存使⽤⾮常⾼、计算成本⾼、不可能⽤于⾼维特征空间。 12. 贝叶斯算法(Bayesian Algorithms) 贝叶斯⽅法是指明确应⽤了贝叶斯定理来解决如分类和回归等问题的⽅法。例⼦有朴素贝叶斯(Naive Bayes)、⾼斯朴素贝叶斯(Gaussian Naive Bayes)、多项式朴素贝叶斯(Multinomial Naive Bayes)、平均⼀致依赖估计器(Averaged One-Dependence Estimators (AODE))、贝叶斯信念⽹络(Bayesian Belief Network (BBN))、贝叶斯⽹络(Bayesian Network (BN))。优点有快速、易于训练、给出了它们所需的资源能带来良好的表现。缺点有如果输⼊变量是相关的,则会出现问题。 13. 关联规则学习算法(Association Rule Learning Algorithms) 关联规则学习⽅法能够提取出对数据中的变量之间的关系的最佳解释。⽐如说⼀家超市的销售数据中存在规则 {洋葱,⼟⾖}=> {汉堡},那说明当⼀位客户同时购买了洋葱和⼟⾖的时候,他很有可能还会购买汉堡⾁。例⼦有Apriori 算法(Apriori algorithm)、Eclat 算法(Eclat algorithm)、FP- growth、图模型(Graphical Models)、图模型或概率图模型(PGM/probabilistic graphical model) 是⼀种概率模型,⼀个图(graph)可以通过其表⽰随机变量之间的条件依赖结构(conditional dependence structure)。例⼦有贝叶斯⽹络(Bayesian network)、马尔可夫随机域(Markov random field)、链图(Chain Graphs)、祖先图(Ancestral graph)。优点有模型清晰,能被直观地理解;缺点是确定其依赖的拓扑很困难,有时候也很模糊。

人工智能AI面试题-3.27请简单阐述下决策树、回归、SVM、神经⽹网络等算法的评论 (共 条)

分享到微博请遵守国家法律