连续型随机变量-北太天元学习26
如果随机变量X的样本空间是不可数的,那么我们说X是连续随机变量。不可数集合意味着该集合包含无限多个值,并且这些值可以与连续尺度上的测量值相关联,而没有间隙或中断。不可数集合可能包括实数线上的区间,以及整个实轴本身。这通常应用于随机模型中的时间、长度、重量、温度等变量。由于X可以取不可数的值,我们只关心X取一定范围值的概率,而不是单个值本身。事实上,由于X可以取的值太多了,所以对于样本空间中的任何k,P(X=k)=0。为了找到X在集合E=[a,b]中的概率,我们不再对所有[a,b]上的所有x_i 对概率P(X=x_i)求和。 我们换一种做法,将区间[a,b]均匀剖分成n个子区间,每个小区间的
长度为∆x = (b-a)/n,端点为{x_0,x_1,…,x_n}。然后,我们只需要X在每个子区间中的概率, 就可以用它来估计X取值在[a,b]中的概率。把小区间分得越来越小也就是 ∆x→ 0,或者让n→ ∞,并定义函数f以满足P(a≤X≤b)= \int_{a}^{b} f(x)dx。我们称f(x)为随机变量X的概率密度函数, 如果
P(a <= X <= b) = \int_{a}^{b} f(x) dx
对所有的a,b都成立。
概率密度函数f(x) 满足下面的性质:
1. f(x) >=0 对所有x∈R 都成立,2. \int_{-\infty}^{-\infty} f(x) dx = 1.
离散随机变量X的样本空间为S, 那么可以定义X的期望(也就是平均值,在北太天元用 mean 函数来计算)
E(X) = \sum_{k\in S} k * P(X = k),
X 的方差定义为
Var(X) = E( (X-E(X) )^2 ).
对于连续型随机变量X, 我们同样也可以定义X的期望和方差,
不同之处在于把求和变成了积分,
E(X) = \int_{-\infty}^{\infty} x f(x) dx,
其中 f(x) 是连续型随机变量的概率密度函数.
连续型随机变量X的方差Var(X) = E( (X-E(X))^2 ), 这里的期望也是用积分来计算。
另外,对于连续型随机变量,我们还引入累积分布函数(cdf), 定义
F(x) = P(X <= x) = \int_{-\infty}^{x} f(x) dx .
根据微积分基本定理,概率密度函数f(x) = F'(x), 其中 F'(x) 表示对累积分布函数 F(x)的导数。 另外,由f(x)>=0 可得到F是一个递增函数; 由\int_{-\infty}^{+\infty}f(x) dx = 1 可得 \lim_{x->+\infty}F(x)=1。
前面我们多次提到了北太天元的内置函数rand 生成服从(0,1)区间上均匀分布的随机变量, 这是一个连续型随机变量的例子。 X~U(a,b)表示X是服从(a,b)区间上均匀分布的随机变量。X~U(a,b)在区间[a,b]上具有相等概率的值。这意味着,对于长度相等的[a,b]中的任何两个区间,X在其中一个区间中的概率等于它在另一个区间的概率。更正式地说,对于任何(a,b)的子区间(a_1,b_1), (a_2,b_2),只要b_1-a_1 = b_2 -a_2, 就有
P(X∈[a1,b1])=P(X∈[a2,b2])。
对于X~U(a,b), X的概率密度函数是常数,必须在[a,b]上的积分为1。因此,它的高度必须为1/(b−a). 换句话说,X的概率密度函数为
f(x) = 1/(b-a) , if x∈[a,b],0 , otherwise.
期望值E(X) = \int_{a}^{b} x * 1/(b-a) d x = (a+b)/2,也就是 X~U(a,b)的期望恰好是区间[a,b]的中点。
例如,如果X~U(2,10),其概率密度函数为f(x) =1/8, if x∈[2,10],其期望值为6, X在3和5之间的概率P(3≤X≤5)= \int_{3}^{5} 1/8 dx = 0.25.中心极限定理通常被认为是统计学中最重要的定理。它说,如果事件重复多次,那么平均结果就会逼近这个事件的期望。
我们可这样来粗糙描述一下中心极限定理: 设{X_i},i=1,...,\infty是一个独立随机变量序列,每个变量具有相同的分布,E(X_i) = µ, Var(X_i) = σ^2。设Y_n = (X_1+...+X_n)/n 为n个随机变量的任意组合的平均值, 那么
(1) E(Y_n) = µ,
(2) Var(Y_n) = (σ^2)/n,
(3) 在n趋向于无穷时,Y_n 趋向于正态分布.
我们后面会介绍正态分布,虽然分布接近正态分布这一点很难证明,但可以通过北太天元做数值试验进行验证。
我们考虑掷硬币n次的实验。设X_i是一个随机变量,给出了一次投掷硬币
是否得到正面朝上(让X_i = 0 表示背面朝上,让X_i = 1 表示正面朝上,每个概率为1/2)。
(a) 计算X_i的期望值和方差。
(b) 设Y_n = (X_1+...+X_n)/n 为抛硬币n次后出现的正面朝上的次数的平均数。
计算Y_n的期望值和方差。
(c) 使用1000次试验的模拟来验证你对(a)和(b)的回答。
还可以使用您的代码来估计在40次翻转中投掷超过60%正面的概率。
(d) 使用模拟来确定200次翻转后应出现的正面比例的95%置信区间。
对上面这个问题的解答:
(a) 期望E(X_i) = 0*P(X_i=0)+1*P(X_i=1) = 0*1/2+1*1/2=0.5,方差为Var(X_i) =(0−0.5)^2*1/2 +(1−0.5)^2 * 1/2 = 1/4。
(b) 根据中心极限定理,E(Y_n) = E(X_i) = 1/2,而Var(Y_n) = Var(X_i)/n = 1/(4*n)。(c) 使用代码段
1 % 北太天元模拟掷硬币的脚本
2 模拟次数 = 1000; %设置模拟次数
3 正面次数 = zeros(模拟次数, 1); %初始化正面次数向量
4 掷硬币次数 = 40; % 设置每次模拟掷硬币的次数
5 for k=1:模拟次数 % 第k次模拟
6 r = rand(掷硬币次数, 1);
7 正面次数(k) = sum(r< 0.5);
8 end
9 Yn_正面比例 = 正面次数/掷硬币次数; %把 正面次数 转成 比例
10 histogram(Yn_正面比例) % 正面次数比例的直方图
11 期望_Yn = mean(Yn_正面比例) %Yn_正面比例的样本均值
12 方差_Yn = var(Yn_正面比例) %Yn_正面比例的样本方差
13 sigma2 = 1/4/掷硬币次数 %根据定理的大的Yn的方差
14 比例60 = mean(Yn_正面比例 > .6) %所有模拟中得到正面比例大于60%的比例

我们想要验证E(Y_n) = 0.5 和 Var(Y_n)= 1/(4*n)。
第11行显示样本平均值的估计平均值 "期望_Yn" (来自40次试验的正面比例),
第12行显示样本均值的估计方差 "方差_Yn"。
第14行显示了要与估计方差进行比较的理论方差(通过定理计算的方差)。
通过运行此代码,我们应该可以看到这些值是接近的。
此外,第14行显示了正面超过60%的模拟比例 "比例60",
这用于估计P(Y_n>0.6)。如果n=40,您应该看到概率大约为0.077。
(d) 假设我们想为200次翻转后出现的正面比例设定95%的置信区间。
也许学习了如何其它方法, 然而,我们这里使用模拟生成置信区间的良好近似值。
您可以对Yn_正面比例矢量的值进行排序,并确定第2.5个百分位数和第97.5个
百分位位数的Yn_正面比例的值。
比例排序=sort(Yn_正面比例);
比例排序(round(0.025*模拟次数))
比例排序(round(0.975*模拟次数))

在第一行中,我们使用sort函数按递增顺序对比例值进行排序。
然后我们需要看第2.5个百分位数的序号,我们可以将向量的大小乘以.025。如果这不是一个整数,请使用四舍五入到最接近的整数。
最后一行计算置信区间的上端。您应该看到n=200的置信区间(0.4300,0.5700),
也就是说,随机变量 Yn_正面比例 处于区间(0.4300,0.5700)之间的概率是95%.