PMF概率矩阵分解介绍

2022-12-05 02:45 作者:021usc 0人读过 | 我要投稿

文档

由于文章涉及到了很多公式，排版不太方便，可以通过gitee上的链接下载pdf和md版本的文档进行查看。

https://gitee.com/youryouth/mc/tree/63c879c1b2aa0e942e3c00820744e79553c6e501/pmf

矩阵分解的困难

由于系统噪音的存在，不可能做出完美的分解
评分矩阵R中包含很多未知元素（稀疏矩阵）
传统的协同过滤方法既不能处理大数据量的推荐，也不能处理只有很少评分的用户。这篇论文提出了著名的概率矩阵分解的方法来解决这个问题。概率矩阵分解的思想是以中线性因子模型，它使用与用户相关的系数，将用户的偏好建模成一个一系列向量的线性组合。

贝叶斯观点

评分矩阵R是系统观测值
用户和项目隐特征矩阵U和V可看作系统内部特征，是需要估计的参数

$%0AR%20%3D%20UV%0A$

p(X)是一个常数。

PMF

U是一个N×D矩阵，其中N是用户数，D是rank的维度。V是D×M矩阵，其中M是要的项目数。因此，N×M的评级矩阵R可以通过以下方式近似补全

$R%20%3D%20UV%0A$

我们的目标是找到合适的U和V。因为U和V是原始矩阵的低秩矩阵，所以PMF也被称为低秩矩阵分解问题。此外，U和V矩阵的这一特殊特征使得PMF甚至对于包含数百万条记录的数据集也可扩展。

PMF从贝叶斯学习中得出的直觉用于参数估计。一般而言，我们是想借助贝叶斯规则来找到模型参数的后验分布，假设有如下参数。

$%5Cbegin%7Barray%7D%7Br%7D%0A%5Ctheta%3D%5C%7BU%2C%20V%5C%7D%20%5C%5C%0AX%3DR%20%5C%5C%0A%5Calpha%20%3D%20%5Csigma%20%5E2%0A%5Cend%7Barray%7D$

在这里，X是我们的数据集，等于原始的评分矩阵R，θ是分布的参数或参数集，是优化求解的目标U和V，α是分布的超参数，σ是零均值球形高斯分布的标准偏差。

训练过程的整体思路是，随着我们获得有关数据分布的更多信息，我们将调整模型参数θ以适合数据。从技术上讲，后验分布的参数将插入到先前的分布中，以进行训练过程的下一次迭代。也就是说，给定训练步骤的后验分布最终将成为下一步骤的先验。重复该过程，直到步骤之间的后验分布 $p%5Cleft(%CE%B8%7C%20X%2C%20%CE%B1%5Cright)$ 几乎没有变化为止。

在这里， $p%5Cleft(%5Ctheta%7CX%2C%5Calpha%20%5Cright)$ 是后验分布， $p(V%7C%5Csigma_V%5E2)$ 和 $p(U%7C%5Csigma_U%5E2)$ 是先验分布， $p%5Cleft(R%20%5Cmid%20U%2C%20V%2C%20%5Csigma%5E%7B2%7D%5Cright)$ 是似然分布。

Probabilistic Matrix Factorization (PMF)

如前所述，我们的模型参数是U和V，R或者X是我们的数据集。经过训练后，我们将得到一个补全后的R矩阵，该矩阵还将包含对原始矩阵空缺的评分。等等

结论

本文给出了概率矩阵分解(PMF)及其两个导数：先验可学习的PMF和约束PMF。我们还证明了这些模型可以有效地训练，并成功地应用于包含超过1亿个电影评分的大型数据集。

但初步结果强烈表明，对所提出的PMF模型进行全面的贝叶斯处理将导致预测精度的显著提高。

参考

https://www.bilibili.com/video/BV1Ti4y1S7Vh?p=11&;vd_source=2168ec090b7e16082ad7fc7264c30fe5
https://www.cnblogs.com/Matrix420/p/5140820.html
https://datalearner.com/blog/1051507818535686
https://zhuanlan.zhihu.com/p/34422451

标签：

PMF概率矩阵分解介绍

文档

矩阵分解的困难

贝叶斯观点

PMF

结论

参考