[All of Statistics]模型,统计推断和学习(1)
6.1 introduction
统计推断,或在计算机科学中被称为“学习”,是指使用数据来推断产生数据的分布的过程。一个典型的统计推断问题是:
在某些情况下,我们可能只想推断出F的一些特征,比如它的平均值。
6.2 Parametric and Nonparametric Models
统计模型F是一组分布(或密度或回归函数)。参数模型是一个可以由有限数量的参数参数化的集合F。例如,如果我们假设数据来自于一个正态分布,那么这个模型(6.1)是
这是一个双参数模型。我们把密度写成来表明x是随机变量的一个值,而µ和σ是参数。一般来说,参数模型的形式(6.2)是
,其中θ是一个未知的参数(或参数向量),可以在参数空间Θ中取值。如果θ是一个向量,但我们只对θ的一个组件感兴趣,所以我们称剩余的参数为“讨厌的参数”(nuisance parameters)。非参数模型是一个不能以有限数量的参数来参数化的集合F。例如,就是非参数的。
6.1实例(一维参数估计):设是独立的伯努利分布Bernoulli(p)的观测值。问题是估计参数p。
6.2实例(二维参数估计):假设,我们假设
,
在(6.1)中已给出。在本例中,有两个参数,µ和σ。其目标是从数据中估计参数。如果我们只对估计µ感兴趣,那么µ是感兴趣的参数,而σ是一个讨厌的参数。
6.3实例(cdf的非参数估计): 设是来自
的独立观测值。问题是估计F只假设
。
6.4实例(pdf的非参数估计):设是来自
的独立观测结果,设
为pdf。假设我们想估计
。仅假设
是不可能估计F的。我们需要假设f有一些平滑性。例如,我们可以假设
其中是所有概率的集合而且
被称为索伯列夫空间(Sobolev space);它是一组不“太乱动”的函数。
6.5实例(泛函的非参数估计):设。假设我们想估计
,只假设这个存在平均数µ。
平均数µ可以被认为是F的一个函数:我们可以写出。一般来说,F的任何函数都被称为统计函数。
泛函的其他例子是方差 和中位数
。
6.6实例(回归、预测和分类):假设我们观察成对的数据。也许
是受试者i的血压,
是他们的寿命。
X被称为预测器、回归变量、特征或自变量。Y被称为结果或响应变量或因变量。我们称为回归函数。如果我们假设
,其中F是有限维的,例如直线的集合,那么我们就有一个参数回归模型。如果我们假设
,其中F不是有限维的,那么我们有一个非参数回归模型。基于新患者的X值来预测Y的目标被称为预测。如果Y是离散的(例如,活的或死的),那么预测就被称为分类。如果我们的目标是估计函数r,那么我们称之为回归或曲线估计。回归模型(6.3)有时会被写成
这里 。我们总是可以这样重写一个回归模型。要看到这一点,定义
, 因此
。
除此以外,
下一步是什么?在大多数介绍性课程中,从参数推理开始。相反,我们将从非参数推理开始,然后我们将涵盖参数推理。在某些方面,非参数推理比参数推理更容易理解,也更有用。
频率和贝叶斯。统计推断有许多方法,这两种主要的方法被称为频率推理和贝叶斯推理。我们将涵盖这两者,但将从频率推断开始,会推迟讨论这两者的利弊。
一些符号。如果是一个参数模型,我们写
和
。下标θ表示是相对于
的概率或期望,但这并不意味着我们正在对θ进行平均。类似地,我们为方差写了
。