个性化推荐算法的四大策略05

如题所述

第1个回答  2022-06-08

前两项是逻辑回归(LR)模型,第三项为二阶特征组合,意思是 该模型对每个输入特征都需要学习一个低维的隐向量表达V(即深度神经网络中的向量表征)

把原先的w{ij} 换成了V{i} 和 V{j} 的点积,V{i} 表示对 x{i} 这个特征的隐向量表达,V{j} 表示对 x{j}这个特征的隐向量表达, 特征组合权重是通过各自单一特征的隐向量内积进行体现。

然而,这样的特征交叉会存在什么问题呢?以 58 同城 APP 本地服务租车业务的用户为例,根据平台用户画像,会出现性别、偏好车型、偏好品牌等特征。

一个特征和其他特征进行二阶特征组合时,可能会出现同一个特征向量共享的情况 (比如性别与偏好车型组合、性别与偏好品牌组合共享了同一个特征向量), 这就使得模型表达能力十分有限。

在因子分解机(FM) 模型的基础上,我们引入了一个场(Field)的概念,从而形成了一个新模型——FFM(Field Factorization Machine)

相比 FM 而言,因为 FFM 引入了一个场的概念,使得该模型产生了更多辅助信息,表达能力更强了。此时可以把 FM 看作只有一个场的 FFM。

逻辑回归(LR)模型主要通过人工进行特征组合,为了解决人工经验的不足,实现自动发现有效的特征并进行特征组合,从而缩短特征挖掘的实验周期,于是衍生出了因子分解机(FM)等高维复杂模型。

FM 模型主要通过隐变量的方式发现两两特征之间的组合关系,不过这种特征组合仅限于两两特征之间。于是,更加复杂的组合模型——GBDT 模型诞生了,它主要用来解决高维特征组合问题。

梯度提升决策树(GBDT)模型算是传统机器学习算法中拟合能力最强的算法之一, 它通过采用基于函数的线性组合实现了多轮迭代,并在每轮迭代后产生一个弱分类器,最后每个分类器在上一轮分类器的残差基础上进行训练。

一般来说,集成学习会选择分类回归树(CART)作为弱分类器,且每个分类回归树的深度不会很深,最终总分类器通过将每轮训练得到的弱分类器进行加权并求和得到一个结果,具体表达式如下所示:

GBDT+LR 模型利用 GBDT 自动进行特征筛选和组合,进而生成新的离散特征向量,然后将该特征向量当作逻辑回归(LR)模型的输入,最终产出预测结果。

一般来说,逻辑回归(LR)模型本身比较适合处理线性可分的数据,而不适合处理拟合非线性数据。

如果想让逻辑回归(LR)模型处理拟合非线性数据,就可以利用 GBDT 产生特征的组合。因为该模型对非线性分布数据具备了整体拟合能力,它能通过算法自动、高效地寻找到有效的特征组合,并产生三阶以上的特征组合结果,而 FM、FFM显然不具备如此强的特征组合能力。

相似回答