【转】矩阵分解之SVD和SVD++

如题所述

第1个回答 2022-06-18

前面的内容是关于近邻推荐的相关知识，来看下另外一种推荐方法：矩阵分解。

协同过滤可以解决我们关注的很多问题，但是仍然有一些问题存在，比如：

上述两个问题，在矩阵分解中可以得到解决。原始的矩阵分解只适用于评分预测问题，这里所讨论的也只是针对于评分预测问题。常用的分解算法有SVD和SVD++。

矩阵分解，简单来说，就是把原来的大矩阵，近似分解成两个小矩阵的乘积，在实际推荐计算时不再使用大矩阵，而是使用分解得到的两个小矩阵。

具体来说，假设用户物品评分矩阵为 R，形状为 mxn，即 m 个用户， n 个物品。我们选择一个很小的数 k，k 比 m 和 n 都小很多，然后通过算法生成两个矩阵 P 和 Q，这两个矩阵的要求如下：P 的形状是 mxk，Q 的形状是 nxk， P 和 Q 的转置相乘结果为 R。也就是说分解得到的矩阵P和Q可以还原成原始的矩阵R。

用公式来描述就是：

其中 R 表示真实的用户评分矩阵，一般有很多缺失值（缺失值表示用户没有对该物品评分），带尖帽的 R 表示使用分解矩阵预测的用户评分矩阵，它补全了所有的缺失值。

从另一个角度来看，矩阵分解就是把用户和物品都映射到一个 k 维空间中（这里映射后的结果用户用矩阵P表示，物品用矩阵Q表示），这个 k 维空间不是我们直接看得到的，也不一定具有非常好的可解释性，每一个维度也没有名字，所以常常叫做隐因子。用户向量代表了用户的兴趣，物品向量代表了物品的特点，且每一个维度相互对应，两个向量的内积表示用户对该物品的喜好程度。

SVD 全程奇异值分解，原本是是线性代数中的一个知识，在推荐算法中用到的 SVD 并非正统的奇异值分解。

前面已经知道通过矩阵分解，可以得到用户矩阵和物品矩阵。针对每个用户和物品，假设分解后得到的用户 u 的向量为 p_u，物品 i 的向量为 q_i，那么用户 u 对物品 i 的评分为：

其中，K 表示隐因子个数。

问题关键来了，如何为每个用户和物品生成k维向量呢？这个问题可以转化成机器学习问题，要解决机器学习问题，就需要寻找损失函数以及优化算法。

这里单个用户对单个物品的真实评分与预测评分之间的差值记为 e{ui}。

将所有用户对物品的真实评分与预测评分之间的差值的平方之和作为损失函数，即

其中，R 表示所有的用户对所有物品的评分集合，K 表示隐因子个数。

我们要做的就是求出用户向量 p_u 和物品向量 q_i ，来保证损失函数结果最小。

求解损失函数优化算法常用的选择有两个，一个是梯度下降（GD），另一个是交替最小二乘（ALS）。这里以梯度下降为例。

梯度下降算法的一个关键点在于计算损失函数对于每个参数的梯度。

在实际应用中，会存在以下情况：相比于其他用户，有些用户给分就是偏高或偏低。相比于其他物品，有些物品就是能得到偏高的评分。所以使用 pu*qi^T 来定义评分是有失偏颇的。我们可以认为评分 = 兴趣 + 偏见。

其中，μ表示全局均值， bu表示用户偏见，bi表示物品偏见。