Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡

机器之心专栏
小红书推荐技术团队

来自小红书的研究者在多样化推荐中 , 从用户体验和系统应用的视角出发 , 提出了一种滑动频谱分解(SSD)的方法 , 该方法可以捕捉用户在浏览长项目序列时对多样性的感知 。 通过理论分析、离线实验和在线 A/B 测试 , 验证了该方法的有效性 。
多样化推荐(diversified recommendation)是推荐系统中一个重要的课题 。 从用户视角分析 , 多样性可以帮助用户扩展和发现新的兴趣 , 但是繁多的内容则会令人厌倦 。 从平台视角分析 , 多样性可以帮助系统探索用户喜好 , 防止内容越推越窄的情况 , 同时也可以让小众和长尾的内容得到曝光 , 促进生态发展 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

在一个大规模的推荐系统中 , 我们可以从三个角度来理解多样化的推荐结果 , 如上图所示 。 首先是推荐质量(quality) , 即推荐的结果需要匹配用户的兴趣 , 可能是用户历史交互过的 , 也可能是第二点 , 即多样性所考虑的 , 用户兴趣的扩展和发现 。 除此之外 , 我们还需要考虑公平性(fairness) , 无论是衡量质量还是多样性 , 都要兼顾小众兴趣和长尾内容 。 推荐质量使得我们可以对点击率、时长等行为建模 , 进而转换为一个分类 / 回归问题 。 推荐结果的多样性 , 一般由两两之间的相似性(similarity)得到 , 例如 DPP(Determinantal Point Process) 。
本文介绍的工作 , 即小红书发表于 KDD21 的《Sliding Spectrum Decomposition for Diversified Recommendation》一文 , 将从用户体验和系统应用的视角 , 试图解决其中的两个问题:如何在质量和多样性之间获得一个较好的权衡(trade-off) , 以及如何公平地衡量相似性 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

论文地址:https://arxiv.org/pdf/2107.05204.pdf
研究动机
小红书是国内最大的社交平台之一 , 拥有超过一亿的月度活跃用户 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

小红书中的 item 展示为「笔记」的形式 , 上图是小红书的 Explore Feed 推荐的一个示意图 。 用户可以在双列中下滑浏览 , 同时可以点击感兴趣的笔记进入详情页查看更多内容 , 或者与博主进行互动 。 与固定列表的推荐不同 , 用户可以选择在 Feed 中进行持续的浏览 , 多样性的衡量需要考虑这种长序列的情况 。 另外受限于手机屏幕的大小 , 或者短时记忆的影响 , 研究者在建模多样性的同时也应该考虑「浏览窗口大小」 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

从用户的视角来看 , Feed 就像是他们观测到的一个一维时间序列 , 每个时刻为一篇笔记 。 在经典的时间序列分析中 , 如西瓜的单价 , 我们可以将其分解为经营成本、季节、噪声 , 如上图所示 。 类比到推荐场景 , 如果我们也能将笔记序列分解成几个正交的部分 , 或许就能得到一个较好的多样性衡量办法 。
方法介绍
滑动频谱分解(Sliding Spectrum Decomposition , SSD)
该研究将用户观测到的 Feed 序列 , 转换为下图所示的 Tensor

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片



Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

其中序列总长度为T , 用户浏览窗口大小为w , 推荐的 item 序列为

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

, 滑动步长为 1 ,

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

为笔记在向量空间中的表示 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

是一个三维的张量 , 但是直接研究它有些困难 。 可以先考虑较为特殊的情况:w = T , 即窗口大小等于序列总长度 。 此时仅需要考虑一个窗口内的笔记 , 那如何衡量他们的多样性呢?下图展示了一个简单的例子 , 可以看到 , 固定

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

的情况下 , 相较

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片



Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片



Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

可以提供更多的多样性 。 在二维平面情况下 , 面积是一个很好的度量 ,

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片



Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

围成的平行四边形面积更大 , 于是他们组合的多样性也就更好 。 扩展到更一般的情况 , 我们可以用体积来计算一个窗口内笔记的多样性 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

回到长序列问题上 , 我们需要处理的问题含有多个窗口 。 多个窗口联合的体积是没有一个直观定义的 , SSD 对这种情况下的体积做了一个推广 。 具体而言 , 一个窗口内笔记的体积 , 可以用矩阵的奇异值乘积来表示 , 这里的矩阵即是 Tensor

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

的一行 , 注意到奇异值分解在 Tensor 情况下是有定义的 , 于是我们对 Tensor

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

做奇异值分解 , 将分解得到的奇异值

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

, 作为了 Tensor

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

的体积 , 即多个窗口联合的多样性 。 与每篇笔记的质量结合 , 即可得到如下的 trade-off 目标 , 其中 Z 是候选集合 ,

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

是一个平衡系数 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

基于内容与基于协同过滤的方法(CB2CF)
在 SSD 中 , 该研究依赖于笔记的向量表示来衡量多样性 , 向量两两之间的相似性需要符合用户对于多样性的感知 。 有两种直观的思路来得到这些向量 。 一是基于内容(content-based)的方法 , 即构造一个基于笔记图片和文字内容的监督任务 , 将监督模型的中间层结果作为向量表示 。 二是基于协同过滤方法 , 即通过全体用户的交互历史 , 构造 CF 向量 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

然而在实际应用中 , 单纯使用这两种方法都有一定的缺陷 。 基于内容的方法依赖于大量的先验知识 , 而基于协同过滤的方法对长尾兴趣和新内容却非常不友好 。 于是该研究设计了上图所示的 CB2CF (Content-based to Collaborative Filter)方法 , 通过内容信息预估协同过滤的结果 。 在输入上仅使用内容 , 这样即使对于新内容也能依赖模型的泛化能力得到较好的结果 。 在输出上依赖全体用户的协同标注 , 使得研究者能够在统计上学习用户感知的信号 。
实验结果
在离线实验中 , 研究者对比了 CF 和 CB2CF 在长尾上的表现 。 在四个高区分度的类目下 , 由实验结果可得 CB2CF 有着较好的区分能力 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

在线上实验中 , 研究者用 SSD 与 SOTA 的 DPP 模型做了 A/B 实验 , 在时长(Time)、互动(Engage)、ILAD(用户浏览笔记之间的平均距离 , 即曝光多样性)、MRT(用户平均阅读类目数 , 即消费多样性)上都取得了一定的收益 。

Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡
文章图片

【Tensor|KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡】小红书目前有超过一亿的月度活跃用户 , 在算法和工程上都有着很多有趣并富有挑战的问题 。 除了推荐多样性外 , 我们还在召回、排序、强化学习、图神经网络、CV、NLP 等多个方向进行着持续的探索和落地 , 职级、薪水 open , base 上海 / 北京 , 如有任何问题 , 请直接联系 yanhuahuang@xiaohongshu.com 。

    推荐阅读