有意思的概率与统计(六)
在经历了艰苦的奋斗与挣扎过后,我终于把概率的基本内容向各位小伙伴介绍完了!
可以说,前几篇专栏里介绍的东西可以说是概率论当中的基础中的基础,但同时也是学好概率论的重中之重了。只有充分理解好前面我所向大家介绍的内容,之后有关概率论的学习大家才能够足够顺利地进行下去~
那么,今天开始,我们学什么呢?
那当然是正如我之前所说的……随机变量!
Chapter Two 随机变量及其分布
2.1 随机变量及其分布
我们之前已经简单地提及过了随机变量的概念。(专栏(一)中就有讲到过~),它是用于描述随机现象的结果的数字变量,以大写字母表示。
但是对于随机变量的具体定义,我们还没有明确给出。事实上,所谓随机变量,实际上就是定义在样本空间上的关于样本点
的实值函数
,其取值用小写字母x,y,z等来表示。
因为样本空间会因样本点的个数和性质分为离散样本空间和连续样本空间,自然,随机变量也可以因此分成离散型随机变量和连续型随机变量。二者的主要区别就在于样本空间是否是至多可数集。
与微积分中的基本变量有所差异,概率论中的随机变量X是一种“随机取值的变量,并且伴随有一种分布”。我们不仅要知道X的可能取值,还要知道对应该值的概率,这就构成了一个概率分布。(概率分布的概念我们之前也有所提及,小伙伴们可以去回顾一下,加深理解~)

所以,为了能够更好地使随机变量发挥它在概率论中的作用,我们就有必要好好地研究——随机变量的概率分布。
对于离散型随机变量来说,我们一般不难找出对应某些事件的概率。(当然,对于无限可数集而言,可能问题要稍微复杂一些~)但是对于连续型随机变量而言,似乎单纯去寻找某一个样本点的概率不太容易实现。(很多时候都会变成0……这并不便于我们研究问题。)
因此,我们就有必要通过另一种方式来表示随机变量的分布关系。
由于随机变量是实值函数,因此它的函数值的取值集合(即样本空间)也一定是一个实数集。如果说我们不去考虑单个样本点的概率,而是去考虑某些具有特定规律(这个规律便于我们对新的分布关系给出定义)的事件。这样,如果我们又可以通过一定的方式将单个点(或者单个点附近)的概率表示出来,那么这就是一个十分完美的分布表示法。
最简单地,考虑事件A={X≤x}。(这个事件确是待研究的样本空间的子集。)对于一般的情况,该事件对应的概率为P(A)=P(X≤x)。
又因为P(c<X≤a)=P(X≤a)-P(X≤c),P(X>b)=1-P(X≤b),所以,对于任何以序关系表示的事件,只要知道对应的概率P(X≤x),就可以完美求解其概率。
同时,对于离散型随机变量而言,我们又可以令P(X=x)=P(X≤x)-P(X≤x-1),这样,我们也能够通过我们所规定的事件的概率来给出单个样本点的概率。而对于连续型随机变量而言,这样的事件又不会使得概率分布中概率全部是0值或者是不可得到的值。
显然,这样的事件用于定义新的分布关系是十分合理的。
此时,我们不难发现,P(X≤x)从一个对应于事件的函数,变为了对应于数值变量x的函数。这个时候,它确实是一个真实的函数了(函数原本最狭义的定义就是数集到数集的映射。),我们将其记为:
称之为随机变量X的分布函数。且称X服从于F(x),记为X~F(x)。
其中,x为任意实数。以后,在提到分布函数时,默认样本空间为全体实数,哪怕真实事件的样本空间并不是这样。(这样做可以统一分布函数的定义域,从而减少分析分布函数的麻烦;同时,因为我们可以对不属于真实事件的部分概率规定为0,这样就也保证了我们这种规定的合理性。)
值得注意的是,很明显,任意随机变量都有一个对应的分布函数,而不管它是连续的还是离散的。

有了分布函数的定义,我们就要研究它的基本性质。(这已经成为固定的套路了~)
首先,考虑到:
这直接说明,分布函数一定是单调不减的。
此外,由于分布函数本质上是事件的概率,因此,由非负性公理和正则性公理,我们知道,分布函数一定是有界的,且满足:
同时,由于样本空间是实数集,因此当x→+∞时,事件{X≤x}逐渐覆盖整个样本空间,因此应该有:
类似地,我们可以想到:
当然,这只是我们的猜想,至于正确与否,还有待证明。只不过,这部分的证明我就不在这里列出了,交给小伙伴们吧~
最后,补充一条对于分布函数而言十分重要的性质——右连续性。即:
这个性质也交给大家来尝试~
至此,我们也就给出了对于分布函数而言最为重要的三条性质。
我们最后指出一点,那就是,满足这三条基本性质的函数一定是某随机变量的分布函数。

我们先来就简单的分布类型来研究其分布函数。
最容易为大家所了解和接受的,就是离散型随机变量。我们之前在介绍确定概率的基本方法时,曾经在例子当中给出过离散型随机变量的概率分布的例子。事实上,我们可以从中抽离出对于离散型随机变量而言最为重要的几个点,从而得到一般的离散型随机变量的分布的概念:
设X为一离散型随机变量,其所有可能的取值为:
则称X取的概率:
为X的概率分布列,简称为分布列,记为。
分布列一般都用列表的方式给出,形式大体如我们前面所举过的例子那样。(这一点大家在中学阶段想必都已经接触过了,就不再细说~)
对于分布列而言,很容易想到它应该具有的性质:
(1)非负性:
(2)正则性:
而离散型随机变量的分布函数显然也就应该是:
不过,对于离散型随机变量而言,使用分布列来描述函数显然要比分布函数来的简单便捷。所以,一般而言,我们描述离散型随机变量的分布,都使用分布列来进行。

对于离散型随机变量,我们可以使用分布列来描述分布情况。但是,我们也提到过,这样的方式对于连续型随机变量并不适合,因为单个样本点处的概率多数情况下都要取零值。
如果这个时候,我们还是需要对某个样本点的概率取值,就不得不使用其它方式来进行估计和代替了。这个时候我们可以想到,因为概率实际上是无穷多个事件:
的累积,于是,我们可以用微积分的思想和方式来解决这个问题:
设是随机变量X的分布函数,如果存在定义在实数集上的非负可积函数
,使得对任意实数x,有:
则称函数为连续型随机变量的X的概率密度函数,简称为密度函数。
概率密度这一称呼十分符合它的定义。类比物理学当中的密度以及由密度求质量的方法,不难理解这里“密度”的含义。同时,此时的分布函数可以称之为概率累计函数。这样的描述生动形象地展示出了二者之间的关系。
概率密度函数在连续型随机变量的研究当中发挥的作用相当于是离散型随机变量的分布列一样,因此它也显然具有非负性和正则性两个性质。这是十分显然的道理~
最后,我们也指出,满足非负性和正则性的函数,一定可以写作某个随机变量的分布列或者概率密度函数。

思考:
回答下列问题:
(1)试证明分布函数的两个极限;
(2)试证明分布函数具有右连续性;
(3)考虑一下,我们可以怎样根据分布函数的三条基本性质构造一个可能的随机变量?对于满足非负性和正则性的概率密度函数又如何构造随机变量呢?
(4)对于连续型随机变量,它的分布函数除了已知的三条基本性质之外,还具有哪些基本性质?
试求以下离散型随机变量的分布列:
(1)口袋中有5个球,分别编号1~5。从中任取3个,X为三个球中的最大号码;
(2)一颗骰子抛掷两次,X为两次所得的最小点数;
(3)口袋里有7个白球和3个黑球。每次从中任取一个,若为黑球,则不放回,并另外放入一个白球。X为首次取出白球时的一共的取球次数;
(4)一副扑克牌中有54张牌(包含大小王)。从中任取5张,X为黑桃张数;
设随机变量X的密度函数为:
求
;
设随机变量X的密度函数为:
试求:
(1)系数A的值;
(2)X落在区间(0,π/4)内的概率;
设连续型随机变量X的分布函数为:
试求:
(1)系数A的值;
(2)X落在区间(0.3,0.7)内的概率;
(3)X的概率密度函数;
设随机变量X的密度函数
为一个偶函数,
为X的分布函数,试证明对于任意实数a,都有:
(1)
;
(2)
;
(3)
最後の最後に、ありがとうございました!