概率密度函数映射变换推导(PRML-1.27式)
本文节选自淡蓝小点PRML Page-by-page项目notes第一章1-020说明点(对应PRML page18)。第一章视频还未在B站上传(还有部分剪辑校对工作未完成),需要notes的朋友请加微信(微信名:淡蓝小点Bluedotdot,微信号:bluedotdot_cn)索取。淡蓝小点网站(https://bluedotdot.cn, https://bluedotdot.com.cn)还在建设中,暂时不能访问!
设是一个关于
的概率密度函数,现有函数变换
使得
且
为双射,要求关于
的概率密度函数
,应该怎么求?一种最想当然的想法就是将
代入
替换掉里面的
变成
。但这是不是就是
的概率密度函数
了?答案是否定的。用
替换
后
的正确结果如下式所示(也就是PRML的1.27式)
它比直接替换多了一个求导的绝对值项。试举一列,设在
范围内均匀分布,所以
。令
也就是
。如果直接替换的话有
注意,是个常函数,跟变量的变化无关,所以变换后仍有
。因为
所以自然有
。所以上式积分则有
可见,积分并不等于1,所以一定不是合法的概率密度。而根据1.27式得到的结果为
所以积分为
那么书上的1.27式是如何得到的了(可参考MLAPP的2.6.2)?前面给出的变化式是,现在假设
,也就是
。设
是
的累积分布函数,也就是
所以有
注意,这里的就是我们要求的
的概率密度。而用
替换
得到
当是递增函数时
可以表示为
,因为此时有
。当
是递减函数时
可表示为
,因为此时有
,所以上式可写为
因此有
最后一步是因为若是递增函数,则必有
(导数大于零函数值递增),所以也有
(可把后者看作前者的倒数);若
是递减函数,则必有
,所以也有
。所以有
至此我们就得到了书上的1.27式。当然,我们也可以从另一种角度来看1.27式的推导过程。设的取值范围为
,
的取值范围为
。根据
是递增还是递减,我们有
所以有
我们已经推导了随机变量概率密度,现在讨论极值的问题。假设
为
的众数(即
为
的最大值,相当于
)。
是否能得出结论也为
的众数了?答案也是否定的,即通常情况下
不一定是最大值,也就是通常都有
。再通俗一点就是说,不能通过求
的极大似然估计得到
,再将
代入
得到
当作
的极大似然估计结果。
但是要注意,这里说的是常用。也就是说在特殊情况,即为线性变换时,上述结论是成立的。也就是当
为线性变换时,
也是
的极大似然估计。下面来证明这一点。
根据1.27式我们有,其中
对应去绝对值后的符号。基于这个公式有:
假设是
的极值点,则根据
得到的
(满足
)是否一定是
的极值点了?即是否一定有
了?将
代入上式后有
上式右边第一项必为0因为有,但第二项就不一定为0了......
【本问题未完结,但至此已达到B站插入公式数量上限量,无法继续刊载,请需要的朋友联系我拿notes...】