现代数字信号处理I一班 授课教师:张颢 2020-2021学年(秋)第一学...

# 现代数字信号处理I一班 授课教师:张颢 2020-2021学年(秋)第一学期
## P2 概率论复习🖤🖤🖤🖤🖤🖤🖤🖤

没有课件
现代统计Statistic=用到概率
概率论与数理统计:区别很大,仅仅符号体系相同
Data=对自然界采样;对象是自然界,sd给的;一定是真实的,话里没话
“不像人文学科话中有话;选stem避开人生一大困难”
Modal=人造的,统计来的;vs概率论的modal是先验的Prior
input:
Modal←Data=Statistic
Decision决策←Modal=Probability
Modal→Data=Monte Carlo(Simulation)人造数据Pseudo eg原子弹“师弟也想做”
跳过Modal:
Decision←Data=Big Data“高不成低不就”小蜜蜂防吐药水压机压航母甲板

Expectation(Mean) X f_X(x)
概率密度f_X(x)不知道:病态“输入少想要的输出又太多”
解决方法:用分布Destribution走到距Moments上
期望E是一个一阶矩
①物理含义是重心Gravitical Center
用一个数(点)概括一个分布(物体)
②期望广泛成立的线性特性
匹配问题Matching:n个人n顶帽子,拿到自己帽子的人数,求此随机变量
拿到别人的帽子会影响别人,变量相互干扰
仅仅求期望就不难,只要求各自的期望再简单叠加起来,不用考虑别人的感受



在期望的基础上定义方差
期望给出随机变量的中心位置Center Position
方差Variance给出随机变量的散得有多开Dispersion

E的线性性质那么好那么非线性呢?只能知道不等于号
凸函数convex(图形与汉字相反:U不是∩)
若对函数进行凸组合,要比凸组合的函数大:Jensen Inequality

用此不等式证明一下Var非负:对任意x,凸函数都能被我的这个与a有关的L_a所supporting

选a=EX,X的期望


**音频的声音变糟糕了**
③逼近Approximation X
**突然切P**

用最简单的方法逼近X:选确定常数a determined constant
需要确定一个度量或者距离Distance:常用的均方距离Mean Square Distance=相减平方期望再开方
残差Residue=最佳逼近所剩下的误差
用采集的数据(原材料)Y对(目标函数)X进行逼近(Y,X都是随机量)=泛函Functional(困难)=函数的函数

使用条件期望Conditional Expectation算泛函
①最重要的点:条件期望是一个随机函数r. r(普通期望是一个数)
②保持了期望的线性特性

③条件期望的期望又恢复为一个期望
“所谓的证明”不看也行

在E内部时条件期望的随机量Y暂时成为确定量:条件期望的提出性质takeout
考察期望的线性特性,X_1...X_n是独立的
如果n是随机的,求随机n个随机量的期望

证明

eg 用飞机上采集的参数(随机量)估计飞机的位置(随机量)
“刚才感觉很难现在还是很难”
把g(Y)暂时变成一个确定量:使用X条件期望的Y期望
由Jensen Inequality得

*任意g与X之间的均方距离都比条件期望与X之间的均方距离大*
“如鲠在喉”
“靠Intuitive犀利马哈连滚带爬滚到地儿”
“毫无漏洞的逻辑把这个统计信号的基石之一说清楚”
“两种随机量X,Y同时映入眼里”
3个Y1个X,先处理X


结果:最优逼近来自于条件期望(理论上解决了但实际上难算条件期望)
模型分两类:参数化模型Parametric,非参数化模型
参数化模型Parametric=只知道种类不知道具体数字 eg 高斯分布,但不知道均值和方差
=需要从数据把参数浓缩求出来
非参数化模型Non-parametric=机器学习重视这个
eg 聚类Clustering=大致分成几堆儿
θ的同义词:估计子Estimator=构造的准备逼近数据的θ
=做统计Statistic
=特征提取Feature(机器学习里)
(频率学派Frequencist)θ的理念:determined Unknown Constant
=在贝叶斯学派Bayesian里的随机参数(吵300年的架)
“一张扑克牌的花色?在一个范围内还是确定的?”
解它的最优解


随机误差(方差)Variance
系统误差(偏差)Bias:可以忍受它大一些;可以通过一次校正纠正回来 “一块表一直快6小时(系统误差),但是它是一块好表;今天快2小时明天慢3小时(随机误差)的表,可以扔了”

Bias-Variance Tradeoff
先端了Bias,变成无偏性Unbiasedness
多次采样取平均=多次估计

假定,才可以化简
此处假定噪声不相关(红色波浪线=0)

让方差随着n的增大而减小到0
分母放置n-1保证估计的方差是无偏的,分子减去的是样本均值X/bar而不是真正的均值

证明以上为什么分母是n-1
假定X独立同分布“做实验手脚要干净”

上面n-1下面n-1,说明是无偏估计
方差Var(X)是一个二阶量
有条件期望所以也可以有条件方差

方差=条件方差的期望+条件期望的方差
🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤
## P3 最小方差无偏估计🖤🖤🖤🖤🖤🖤

最优逼近是条件期望
原本对这件事有认知,拿着已知数据X估计未知但没随机性的θ,θ有确定性所以θ可提出E来

上面的理论是对的但并没有什么用
困难地拍脑袋构造θ,还要验证θ的构造对不对
对θ的认识
有一种θ的构造特别差,与θ独立(和θ一毛钱关系也没有,提供不出和θ有关的任何信息):一种极端=Ancillary
高斯分布N(0,1)

Uniformly(太偏颇) Optimal是一种找不到的统计,在太绝对的条件下取最优估计
考试机器的统计:“考试的统计每一道题都选A的文盲;另几个文盲都选B或C或D;UO指在所有该选A的题都比都选A的人考得好且在所有该选B的题都比都选B的人考得好且在所有该选C的题都比都选C的人考得好”
加一个条件:无偏性Unbiasedness,把“文盲”踢出局
最小方差无偏估计Minimum Variance Unbias Estimator(MSE)

另一种极端=充分性Sufficiency,(Fisher), stark contrast to Ancillary
包含所有和θ有关的信息
一个随机变量被条件住了之后就和θ表面上没关系,随机性暂时没有了

Nayman Facterization分解

伯努利是Nayman

泊松是Nayman

高斯是Nayman

Rao-Blackwell Procedure=对估计的改进过程,降低MSE(门槛是无偏“最起码要小学毕业”)
印度人
任取一个充分统计都能构造一个新的估计(一定是充分统计的函数g(s))
断言新的MSE比老的MSE小
证明

举个高斯小例子
单样本虽然土但是是无偏的

新的MSE是所有MSE可能值中的最小的“Rao很厉害!”

完备的Complete=
如果一个统计既充分又完备且找到一个h无偏则h是MVUE;Rao改进h到头了
“看一眼小学文凭,就能断定这个人是个博士;只要这个人既充分又完备”
Lehmann-Scheffé
证明

充分性用在哪儿:
确保改进过的统计只依赖于采样数据,表面上和θ的估计无关
**切P**
回顾

Cramer-Rao Lower Bound(CRLB)=任取一个无偏估计,估计的方差MSE一定大于等于仅依赖于模型不依赖于估计本身的一个下界

”受一些良心的谴责“
以下是证明
Cauchy-Schwarz可惜是袜子不等式=测不准
曲率大的估得准
”分数生不带来死不带去“

泊松的例子
指数分布EF是充分完备的
伯努利泊松高斯的例子
”考第一名和满分一样吗?“
🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤## P4 cramer-rao下限🖤🖤🖤🖤🖤🖤🖤
不管方法怎么努力构造都不会超过Cramer-Rao Lower Bound(sd角度)
Fisher信息-更方便的形式二次导数-曲率
🔖
🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤
## P5 维纳滤波器🖤🖤🖤🖤🖤🖤🖤🖤
滤波Filtering=数据从第一个时刻连续进行采样到第n个时刻,要估计的θ也是依赖于时间的;θ不是保持不动的,而是不断变化的
eg 估计对象:飞在空中的飞行器的位置速度加速度
得出滤波的重要特点:时变
数据从起始到第n个时刻,估计目标也是第n个时刻
平滑Smoothing=和滤波没区别除了平滑的目标是第k个时刻,k<n
=用过量的数据对历史进行重现
=内插Interpolation
*金融领域也用信号处理*
预测Prediction=和滤波没区别除了时间标记是超前的,k>n
=外插Extrapolation
*三者合起来是广义的滤波“Filtering”*
=*对数据进行操作“Operation”*

维纳滤波特点=线性+(只有也只研究过)均方度量
=Linear Operation+Metric: Mean Square
Linear Operation

Metric: Mean Square(在上节课用不同的方式让大家体会线性估计的核心本质=归一化+算角度)
“归一化”

称作相关阵+“算角度”


去噪操作Denoise

“去食堂找一个人,不能对这个人一无所知”
先验知识:R_S, R_(SS_n)

R_(SS_n) denote为r_(SS_n),区分矩阵
“中国古代数学的符号体系太落后了导致发展受阻”
优化过程的最终结果=最优线性滤波的误差:

均值是0说明E(θ^2)是θ的方差;维纳可以降低方差(非常必然)
法2:给二次型配方(矩阵符号非常disconcerting)

初中就会的部分:

初中不会的部分:翻译回矩阵和矢量

最优解就是

最优线性滤波的误差就是

和上面方法结果相同
*误差曲面是一个二次曲面Quadratic Surface*
数据的相关矩阵R_X=正定的,说明*维纳滤波是凸问题convex*,能求得最优滤波的解析解
维纳滤波的精神实质=投影(正交化)
=Projection(Orthogonalization)
y尖=S上距离x最近的点
证明以上
正交性在滤波中的作用
正交性原理:残差一定正交于原材料

和前面做的结果一样
刚才是离散时间,现在用连续时间
线性时不变系统的输出=输入卷积上冲击响应

平滑

滤波
h(t)=0=因果的Causal=物理可实现
但因为没正交,不能直接删除h的负半轴
正交化
“橡皮泥猫捏成球再捏成橡皮泥鸟”
QR分解
因果维纳滤波
白噪声U(t)=等分量混合
=正交
功率谱密度是相关函数的傅里叶变换
U通过h形成对Y的最优估计,此h可斩一半

“我们后讲马尔可夫”
功率频谱密度
输出的功率谱密度=输入的功率谱密度x传递函数的模的平方
与频谱形成反差:
1二阶量,非线性=不能相加有重叠量
2一定正=因为取了模
和信号有相差是不会改变功率谱密度的
谱分解Spectral Decomposition=从功率谱S_X(w)中恢复出H(w)的专门技术
我们假定H一定知道了
"平台思想“

1/H_1*[H*h1^opt]_+

用正交化简化我们的投影操作,然后各个击破
在各个子空间中投影
正交化后整体最优的一部分才是部分最优
”在每个单科都正交的条件下总分第一的人单科都是第一了,很难说通!!!!!“
🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤
## P6 Linear Prediction Coding(LPC)🖤🖤

Speech Coding 语音编码
宽平稳短时成立
短时采样=控制窗口不是非常长
Stochastic Processes Wide-Sense Stationary
WSS=只和差值有关系和具体时间位置无关

预测模型Prediction Model=回归模型Regression
=由过去一段时间的采样(k个)对现在的信号做出预测
线性预测Linear=线性方式进行表达
只传输线性 系数,信息量大大减小
线性预测=自相关取逆 互相关

Wiener-Hopf方程
matlab矩阵求逆
自相关矩阵Toeplitz=k个数就确定了,对角线原点,行列列行
求解=①齐次化Homogeneous+②增广Augmented Processing+③迭代Iterative+④Toeplitz
①齐次化Homogeneous=右端变0

②增广Augmented Processing=矩阵变成k+1xk+1


③迭代Recursive 要从

求得

:


④Toeplitz
翻转特性

把递推过程summary一下
当k=1时

维纳滤波器的预测误差
当k=k时

以上: Levinson-Durbin
“有幸当成背景板”
Forward/Backward Prediction
翻转不单单是线性代数角度的
递归思想
n投影到n-1:n-k

等号一般不成立但是正交情况成立



α翻转就是β

一个高维的数据要预测,先用低维的数据预测好再正交化(=取残差)
线性预测=投影
ρ_k
让这一大堆在X上做投影

“入宝山而空回”
ρ_k分子:


A_k=预测目标X_n与b_k之间的互相关,b_k是X_n-k正交化的结果(=X_n-k在低阶X(n-1)...X(n-k+1)之间的残差)
=预测目标X_n与{X_n-k在低阶X(n-1)...X(n-k+1)之间的残差}之间的互相关
ρ_k分母:
“我怎么觉得这个东西很有意思”

正交化原理=刻画最优估计
=最优估计残差正交于原材料
“杀内存”

E=后项预测的残差的能量
翻转=后项预测
“布袋和尚”
🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤🖤
## P7卡尔曼滤波🖤🖤🖤🖤🖤🖤🖤🖤
连续系统:关心一下传函
离散系统:关心一下线性系数
维纳的黑匣子思想:完全忽略数据和原材料(瓜葛)
线性组合不一定有最优性:高斯背景下有界,可以最优