徐礼文鸿蒙HarmonyOS分布式项目实战分布式点餐App笔记
pyspark.ml训练机器学习库有三个主要的抽象类:Transformer、Estimator、Pipeline。
Transformer主要对应feature子模块,实现了算法训练前的一系列的特征预处理工作,例如MinMaxScaler、word2vec、onehotencoder等,对应操作为transform
Estimator对应各种机器学习算法,主要为分类、回归、聚类和推荐算法4大类,具体可选算法大多在sklearn中均有对应,对应操作为fit;
Pipeline可将一些列转换和训练过程串联形成流水线。