【敢称B站最好!】博导半天就教会了我【时间序列预测】!国内顶尖学府北大强推的 L

课代表总结了时间序列预测👍👍👍
视频内容:
1️⃣论文背景研究问题✍️
2️⃣时间序列经典算法📄
3️⃣算法的核心思想🏷️
4️⃣Transformer架构的优势与问题📑
5️⃣要解决的三大问题🔖
6️⃣如何定义每一个Q是不是偷懒的📖
7️⃣ProbAttention计算方法🧾
8️⃣位置编码信息🗒️
视频内容:
1️⃣论文背景研究问题✍️
1.短序列预测
2趋势预测
3.精准长序列预测

2️⃣时间序列经典算法📄
Prophet:非常实用的工具包,适合预测趋势,但不算精准
Arima:老牌算法了,短序列预测还算精准,但是趋势预测不准
但是一旦涉及到长序列,俩可能就都GG了
lnformer中将主要致力于长序列问题的解决

3️⃣算法的核心思想🏷️
是套transformer架构
建立好长输入(input)和长输出(output)之间的关系

4️⃣Transformer架构的优势与问题📑
1.万能模型,直接套用,代码实现简单,现成例子一大片
2.并行的,比LSTM快,全局信息丰富,注意力机制效果好
3.长序列中attention需要每一个点跟其他点计算(如果序列太长,效率很低)
4.Decoder输出挺墨迹的,要基于上一个预测结果来推断当前的预测结果

5️⃣要解决的三大问题🔖
1.Attention要算的更快
2.Decoder要一次性输出所有预测
3.堆叠encoder也得要更快
论文的三大核心模块

6️⃣如何定义每一个Q是不是偷懒的📖
偷懒的Q感觉就像是均匀分布,没啥特点,全都有
Active的Q明显在某些位置比较活跃,权重差异较大
对于每一个Q,计算其有均匀分布的差异,差异越大则表示其越活越

7️⃣ProbAttention计算方法🧾
输入序列长度为96,首先在K中进行采样)随机选25个K
现在要选出来的是一些重要的Q,正常情况需每一个Q跟96个K计算
重要的Q不用非得计算那么多,跟部分K计算的结果也可以当作其分布
例如源码输出结果:32,8,96,25表示8头,96个Q分别跟25个K计算的内积

8️⃣位置编码信息🗒️
位置信息比较丰富这回
不仅有绝对位置编码
还包括了跟时间相关的各种编码
Encoder与Decoder都加入了
