欢迎光临散文网 会员登陆 & 注册

[All of Statistics]模型,统计推断和学习(1)

2023-03-09 11:58 作者:j2kevin18  | 我要投稿

6.1 introduction

统计推断,或在计算机科学中被称为“学习”,是指使用数据来推断产生数据的分布的过程。一个典型的统计推断问题是:

%5Ctextbf%7B%E7%BB%99%E5%AE%9A%E4%B8%80%E4%B8%AA%E6%A0%B7%E6%9C%AC%7DX_1%2C%20X_2%2C...X_n%20%5Ctextbf%7B~%7D%20F%2C%20%5Ctextbf%7B%E6%88%91%E4%BB%AC%E5%A6%82%E4%BD%95%E6%8E%A8%E6%96%AD%7D%20F%3F

在某些情况下,我们可能只想推断出F的一些特征,比如它的平均值。

6.2 Parametric and Nonparametric Models

统计模型F是一组分布(或密度或回归函数)。参数模型%5Cmathfrak%7BF%7D是一个可以由有限数量的参数参数化的集合F。例如,如果我们假设数据来自于一个正态分布,那么这个模型(6.1)是

%5Cmathfrak%7BF%7D%3D%5Cleft%5C%7Bf(x%20%3B%20%5Cmu%2C%20%5Csigma)%3D%5Cfrac%7B1%7D%7B%5Csigma%20%5Csqrt%7B2%20%5Cpi%7D%7D%20%5Cexp%20%5Cleft%5C%7B-%5Cfrac%7B1%7D%7B2%20%5Csigma%5E%7B2%7D%7D(x-%5Cmu)%5E%7B2%7D%5Cright%5C%7D%2C%20%5Cquad%20%5Cmu%20%5Cin%20%5Cmathbb%7BR%7D%2C%20%5Csigma%3E0%5Cright%5C%7D

这是一个双参数模型。我们把密度写成f(x%3B%5Cmu%20%2C%CF%83)来表明x是随机变量的一个值,而µ和σ是参数。一般来说,参数模型的形式(6.2)是

%5Cmathfrak%7BF%7D%3D%5C%7Bf(x%20%3B%20%5Ctheta)%3A%20%5Ctheta%20%5Cin%20%5CTheta%5C%7D

,其中θ是一个未知的参数(或参数向量),可以在参数空间Θ中取值。如果θ是一个向量,但我们只对θ的一个组件感兴趣,所以我们称剩余的参数为“讨厌的参数”(nuisance parameters)。非参数模型是一个不能以有限数量的参数来参数化的集合F。例如,%5Cmathfrak%7BF%7D_%7B%5Cmathrm%7BALL%7D%7D%3D%5Cleft%5C%7B%5Ctext%20%7B%20all%20%7D%20%5Cmathrm%7BCDF%7D%5E%7B%5Cprime%7D%20s%5Cright%5C%7D就是非参数的。

6.1实例(一维参数估计):设X_1%2C%20X_2%2C...X_n是独立的伯努利分布Bernoulli(p)的观测值。问题是估计参数p。

6.2实例(二维参数估计):假设X_1%2C%20X_2%2C...X_n%20%5Ctextbf%7B~%7D%20F,我们假设%5Coperatorname%7BPDF%7D%20f%20%5Cin%20%5Cmathfrak%7BF%7D%5Cmathfrak%7BF%7D在(6.1)中已给出。在本例中,有两个参数,µ和σ。其目标是从数据中估计参数。如果我们只对估计µ感兴趣,那么µ是感兴趣的参数,而σ是一个讨厌的参数。

6.3实例(cdf的非参数估计): X_1%2C%20X_2%2C...X_n是来自%5Coperatorname%7BCDF%7D%20f%20的独立观测值。问题是估计F只假设F%5Cin%5Cmathfrak%7BF%7D_%7B%5Cmathrm%7BALL%7D%7D%3D%5Cleft%5C%7B%5Ctext%20%7B%20all%20%7D%20%5Cmathrm%7BCDF%7D%5E%7B%5Cprime%7D%20s%5Cright%5C%7D

6.4实例(pdf的非参数估计):设X_1%2C%20X_2%2C...X_n是来自%5Coperatorname%7BPDF%7D%20f%20的独立观测结果,设f%3DF%5E%7B%5Cprime%7D为pdf。假设我们想估计%5Coperatorname%7BPDF%7D%20f%20。仅假设F%5Cin%5Cmathfrak%7BF%7D_%7B%5Cmathrm%7BALL%7D%7D%3D%5Cleft%5C%7B%5Ctext%20%7B%20all%20%7D%20%5Cmathrm%7BCDF%7D%5E%7B%5Cprime%7D%20s%5Cright%5C%7D是不可能估计F的。我们需要假设f有一些平滑性。例如,我们可以假设

f%20%5Cin%20%5Cmathfrak%7BF%7D%3D%5Cmathfrak%7BF%7D_%7B%5Ctext%20%7BDENS%20%7D%7D%20%5Cbigcap%20%5Cmathfrak%7BF%7D_%7B%5Ctext%20%7BSOB%20%7D%7D

其中%5Cmathfrak%7BF%7D_%7B%5Ctext%20%7BDENS%20%7D%7D是所有概率的集合而且

%5Cmathfrak%7BF%7D_%7B%5Cmathrm%7BSOB%7D%7D%3D%5Cleft%5C%7Bf%3A%20%5Cint%5Cleft(f%5E%7B%5Cprime%20%5Cprime%7D(x)%5Cright)%5E%7B2%7D%20d%20x%3C%5Cinfty%5Cright%5C%7D%20.

%5Cmathfrak%7BF%7D_%7B%5Cmathrm%7BSOB%7D%7D被称为索伯列夫空间(Sobolev space);它是一组不“太乱动”的函数。

6.5实例(泛函的非参数估计):X_1%2C%20X_2%2C...X_n%20%5Ctextbf%7B~%7D%20F。假设我们想估计%5Cmu%20%3D%20E(X_1)%3D%5Cint%20x%20dF%20(x),只假设这个存在平均数µ。

平均数µ可以被认为是F的一个函数:我们可以写出%5Cmu%20%3D%20T(F)%3D%5Cint%20x%20dF%20(x)。一般来说,F的任何函数都被称为统计函数。

泛函的其他例子是方差 T%20(F)%20%3D%5Cint%20x%5E2dF%20(x)%E2%88%92(%5Cint%20xdF%20(x))%5E%202和中位数T%20(F)%20%3D%20F%5E%7B%E2%88%921%7D(1%2F2)

6.6实例(回归、预测和分类):假设我们观察成对的数据(%20%20X_%20%7B1%7D%20%20%2C%20%20Y_%20%7B1%7D%20)%2C%20%20%5Ccdots%20%20(%20%20X_%20%7Bn%7D%20%2C%20%20Y_%20%7Bn%7D%20)%0A。也许X_i是受试者i的血压,Y_i是他们的寿命。

X被称为预测器、回归变量、特征或自变量。Y被称为结果或响应变量或因变量。我们称r(x)%3DE(Y%7CX%3Dx)%0A为回归函数。如果我们假设r%20%5Cin%20F,其中F是有限维的,例如直线的集合,那么我们就有一个参数回归模型。如果我们假设%5Cmu%20%3D%20E(X_1)%3D%5Cint%20x%20dF%20(x),其中F不是有限维的,那么我们有一个非参数回归模型。基于新患者的X值来预测Y的目标被称为预测。如果Y是离散的(例如,活的或死的),那么预测就被称为分类。如果我们的目标是估计函数r,那么我们称之为回归或曲线估计。回归模型(6.3)有时会被写成

Y%3Dr(X)%2B%5Cepsilon%20

这里 %5Cmathbb%7BE%7D(%5Cepsilon%20)%20%3D%200。我们总是可以这样重写一个回归模型。要看到这一点,定义%5Cepsilon%20%3DY-r(X), 因此Y%20%3DY%2Br(X)-r(X)%20%3Dr(X)%2B%5Cepsilon%20

除此以外,%5Cmathbb%7BE%7D(%5Cepsilon)%3D%5Cmathbb%7BEE%7D(%20%5Cepsilon%20%7CX)%3D%5Cmathbb%7BE%7D(%5Cmathbb%7BE%7D(Y-r(X))%7CX)%3D%5Cmathbb%7BE%7D(%5Cmathbb%7BE%7D(Y%7CX)-r(X))%3D%5Cmathbb%7BE%7D(r(X)-r(X))%3D0

下一步是什么?在大多数介绍性课程中,从参数推理开始。相反,我们将从非参数推理开始,然后我们将涵盖参数推理。在某些方面,非参数推理比参数推理更容易理解,也更有用。

频率和贝叶斯。统计推断有许多方法,这两种主要的方法被称为频率推理和贝叶斯推理。我们将涵盖这两者,但将从频率推断开始,会推迟讨论这两者的利弊。

一些符号。如果%5Cmathfrak%7BF%7D%3D%5C%7Bf(x%20%3B%20%5Ctheta)%3A%20%5Ctheta%20%5Cin%20%5CTheta%5C%7D是一个参数模型,我们写P_%CE%B8(X%20%5Cin%20A)%3D%5Cint_%7BA%7D%20f(x%3B%CE%B8)dx%5Cmathbb%7BE%7D_%CE%B8(r(X))%3D%5Cint%20r(x)f(x%3B%CE%B8)dx。下标θ表示是相对于T(F)%20%3D%20%5Cint%20x%5E2%20dF(x)%20%E2%88%92%20(%5Cint%20%20xdF(x)%0A)%5E%202的概率或期望,但这并不意味着我们正在对θ进行平均。类似地,我们为方差写了%5Cmathbb%7BV%7D_%7B%5Ctheta%7D

[All of Statistics]模型,统计推断和学习(1)的评论 (共 条)

分享到微博请遵守国家法律