Matlab-概率统计篇(一)

数据经过预处理后,对于单个数据本身应该有一定的“内在”认知,包括其基本统计量(最值、中位数、样本方差等)、变化特征(长期趋势、周期、随机噪声等)等。查阅研究变量的相关文章,可以对这些观测量有进一步的缘由认知。
但是,有时候又需要借助与其他同族样本量(“同集合元素”),或者异族样本量(“不同集合元素”)的关联性等统计分析,得到新的理解或诠释。另外,基于观测结果得到目标问题、提出解决问题的方案、各种方案的评估、方案的最终实施和效果检验。以上都是基于概率统计的内容,因此,只要涉及“科学”,就离不开概率统计,也可以说概率统计渗透在生活的方方面面,包括你不经意之间思考的问题、做出的决定、产生的影响等各种环节,而这种“惯性”或“习惯”就存在于个人的“大脑算法的决策路径”中。
Matlab为概率统计提供了各种分布密度、参数估计、假设检验方法、回归分析及多元分析方法的相关函数等。由于篇幅和内容的限制,不对具体概率统计的数学知识进行详细赘述,同时可以参考《天文学中的概率统计》-陈黎(科学出版社)一书,本篇具体相关函数也主要摘录自此书,由于Matlab版本的不同,有些函数会有对应的名称变化,使用时应当再注意命令行的指示或者“help 函数名”的格式进行再深入学习。
本篇主要介绍各种密度函数(...pdf)和累积分布密度函数(...cdf)及其中的分布函数名。

函数名 说明(概率密度函数) 基本调用格式
betapdf β分布('Beta') Y=batapdf(X,A,B)
binopdf 二项分布('Binomial') Y=binopdf(X,N,P)
chi2pdf 分布('chisquare') Y=chi2pdf(X,V)
exppdf 指数分布('Exponential') Y=exppdf(X,Mu)
fpdf F分布('F') Y=fpdf(X,V1,V2)
gampdf 伽马分布('Gamma') Y=gampdf(X,A,B)
geopdf 几何分布('Geometric') Y=geopdf(X,P)
hygepdf 超几何分布('Hypergeometric') Y=hypepdf(X,M,K,N)
normpdf 正态分布('Normal') Y=normpdf(X,Mu,sigma)
lognpdf 对数正态分布('Lognormal') Y=lognpdf(X,Mu,sigma)
nbinpdf 逆二项分布('Negative Binomial') Y=nbinpdf(X,R,P)
ncfpdf 非中心F分布('Noncentral F') Y=ncfpdf(X,Nu1,Nu2,delta)
nctpdf 非中心t分布('Noncentral t') Y=nctpdf(X,V,delta)
ncx2pdf 非中心分布('Noncentral Chi-square') Y=ncx2pdf(X,V,delta)
poisspdf 泊松分布('Poisson') Y=poisspdf(X,Lambda)
raylpdf 瑞利分布('Rayleigh') Y=raylpdf(X,B)
tpdf t分布('T') Y=tpdf(X,V)
unidpdf 离散均匀分布('Discrete Uniform') Y=unipdf(X,N)
unifpdf 连续均匀分布('Uniform') Y=unifpdf(X,A,B)
wblpdf 韦布尔分布('Weibull') Y=wblpdf(X,A,B)

当然,也可以直接用pdf(指定分布)函数调用对应的分布函数名,具体对应的函数名如上,还有一些分布函数没有列出,如:疲劳寿命分布('BirnbaumSaunders')、逻辑斯谛分布('Logistic')、对数逻辑斯谛分布('LogLogistic')、广义极值分布('Generalized Extrme Value')、广义帕累托分布('Generalized Pareto')、逆高斯分布('InverseGaussian')等。而关于累计分布函数,就是把上面pdf对应的都改成cdf即可。
那在实际的研究过程中,通常需要建立观测量和一个自变量或多个自变量之间的关系,即表明彼此之间有一定的相关性,就可以用“回归方程”来表示,那就有一元回归和多元回归分析的内容,而回归也有线性和非线性函数,那Matlab又是如何实现的呢?(注意:数据标准化处理:zscore)
线性回归函数:regress
拟合交互式工具:cftool;多项式拟合交互式工具:polytool
非线性回归函数
(i) 用nlinfit求基本参数
(ii) 用nlparci求参数估计的置信区间
(iii) 用nlpredci预测值的置信区间
逐步回归:stepwise
系统聚类法
(i) 调用距离函数:如pdist(欧氏距离)
(ii) 聚类函数:linkage
(iii) 分类树形图函数:dendrogram
(iv) 聚类标记函数:cluster
动态聚类法(快速聚类法):kmeans
主成分分析:pca
当然,以上只是列举了常见的一些方法,而有关于具体函数的使用,需要结合自己的数据和函数的具体实践使用做对应调整。