Matlab-概率统计篇(二)

Matlab提供的各种密度分布/累积密度函数可以看出其有内置各种分布律函数,可以根据分布律产生随机数。当然,也可以根据自己的分布律产生随机数,关于这部分内容很大部分涉及Monte Carlo(蒙特卡罗)模拟的具体过程。
另一方面,实际情况往往有一定的样本量,通过样本观测数据去结合分布来探查各种分布的参数估计。综合来说,有以下一些常用的分布参数估计的函数及其对应说明:

函数名 说明
betafit β分布的参数估计
binofit 二项分布的参数估计
dfittool 分布拟合工具
evfit 极值分布的参数估计
expfit 指数分布的参数估计
fitdist 分布的拟合
gamfit 伽马分布的参数估计
gevfit 广义极值分布的参数估计
gmdistribution 服从二变量高斯混合分布的参数估计
gpfit 广义Pareto分布的参数估计
lognfit 对数正态分布的参数估计
mle 最大似然估计
mlecov 最大似然估计的渐近协方差矩阵
nbinfit 逆二项分布的参数估计
normfit 正态分布的参数估计
poissfit 泊松分布的参数估计
raylfit 瑞利分布的参数估计
unifit 均匀分布的参数估计
wblfit 韦布尔分布的参数估计

而跟概率统计篇(一)中类似的,mle也相当于是所有的参数估计所可以综合归纳的函数,其只要在使用过程中指定对应分布的函数名即可,这个分布的函数名与(一)的基本一致,有个别不同的差别需要在使用的过程中多加注意。
另外的实际情况中,由于样本有限,往往很难给出参量总体分布形态的假设,甚至也不知道其中具体的科学过程究竟是如何,因此“非参数”检验显得尤为重要。与之对应的就是“参数”检验,这是基于总体分布形式已知的情况下,对总体分布的参数:均值、方差等进行推断,还能实现两个或多个总体参数的比较。这两种检验统一称为:假设检验。
需要知道的是,假设检验的决策过程使用了类似“反证法”的思想。一般步骤如下:
提出待检验的原假设
和备择假设
;
选择一个检验统计量
,其概率密度
已知;
确定显著水平
和
的拒绝域
,使得
的概率很小;
根据
的抽样结果计算
。如果
,则样本与原假设没有显著的矛盾,即在显著水平
下,接受
;反之拒绝
,接受
。
Matlab也提供了相当多的假设检验函数,主要有以下五种。
正态分布的假设检验
(i) 标准差已知情况下的均值检验:选择ztest(z检验)
(ii) 总体标准差未知时的单个正态总体的均值检验:选择ttest(t检验)
(iii) 总体标准差未知时的两个正态总体均值的比较检验:选择ttest2(比较t检验)
(iv) 总体均值未知时的单个正态总体的方差检验:选择vartest(卡方检验)
(v) 总体均值未知时的两个正态总体方差的比较检验:选择vartest2(比较F检验)
游程数检验:runtest
拟合优度检验
(i) 卡方拟合优度检验:选择chi2gof
(ii) 科尔莫戈罗夫检验:选择kstest
(iii) 斯米尔诺夫检验:选择kstest2
符号检验:signtest
列联表的独立性检验:crosstab
在研究实际数据的过程中,往往结合数据本身的分布特点、数据间的分布特点,来判别观测的基本型和特殊型,从数学的角度剖析数据,再结合各个学科对观测对象一定的原理,说明这些基本特征和特殊现象出现的原因,这便是一个很好的“数据解释”过程。