论文精读:Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
Published:
1. 论文基本信息
- 论文标题:Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
- 核心作者:Jiaqi Zhai, Lucy Liao, Xing Liu 等(Meta AI 团队)
- 核心贡献:提出了生成式推荐模型(Generative Recommenders, GRs)和新型序列架构 HSTU(Hierarchical Sequential Transduction Units),成功将推荐系统转化为纯序列转换任务,并在工业界实现了 1.5 万亿参数规模的模型落地,验证了推荐系统领域的 Scaling Law。
2. 研究背景与动机
过去十年中,深度学习推荐模型(DLRMs)一直是推荐系统领域的基石。然而,在工业级规模下,DLRMs 面临着严峻的扩展性瓶颈:
- 算力扩展性差:尽管 DLRMs 使用了海量数据和数千个特征进行训练,但工业界的大多数 DLRM 无法随着算力的增加而持续提升模型质量。
- 特征工程繁琐:DLRMs 高度依赖异构特征(如类别特征、数值特征),由于新内容不断加入,特征空间基数极高(通常在十亿级别)。
- Transformer 的挑战:尽管 Transformer 在语言和视觉领域取得了成功,但推荐系统面临着无明确结构的特征、持续变化的十亿级词表,以及长达 $10^{5}$ 的用户序列带来的巨大计算成本挑战。
3. 核心创新 I:推荐任务的生成式重构 (Generative Recommenders)
作者将用户行为视为生成建模中的新模态,将检索和排序任务重构为生成式序列转换任务。
3.1 统一异构特征空间
在 GR 中,传统的异构特征被统一编码为时间序列:
- 类别特征(Categorical Features):以用户交互的最长序列为主时间序列,将其他变化缓慢的特征(如画像、关注列表)压缩并合并到主序列中。
- 数值特征(Numerical Features):数值特征(如 CTR)变化极快,完全序列化不可行。但因为类别特征已经序列化,只要序列模型足够强大且采用目标感知(Target-aware)机制,就可以完全移除数值特征。
3.2 排序与检索的序列化转化
-
检索阶段(Retrieval):转化为预测下一个内容的概率分布 $p(\Phi_{i+1} u_{i})$。 -
排序阶段(Ranking):将内容(Items,$\Phi$)与用户动作(Actions,$a$)交替排列,使排序任务可以公式化为 $p(a_{i+1} \Phi_{0},a_{0},\Phi_{1},a_{1},…,\Phi_{i+1})$,从而在因果自回归设置中实现目标感知(Target-aware)交叉注意力。
3.3 生成式训练
通过采用生成式训练,对用户 $i$ 按照 $1/n_{i}$ 的比率进行采样,将序列模型的整体训练时间复杂度从 $O(N^{3}d+N^{2}d^{2})$ 大幅降低至 $O(N^{2}d+Nd^{2})$。
4. 核心创新 II:HSTU 高性能自注意力编码器
HSTU 是一种专为高基数、非平稳流式推荐数据设计的新架构。
4.1 HSTU 的数学表达
HSTU 用统一的模块替换了 DLRM 的特征提取、特征交叉和表征转换。其单层包含逐点投影、空间聚合和逐点转换:
\[U(X),V(X),Q(X),K(X)=Split(\phi_{1}(f_{1}(X))\] \[A(X)V(X)=\phi_{2}(Q(X)K(X)^{T}+rab^{p,t})V(X)\] \[Y(X)=f_{2}(Norm(A(X)V(X))\odot U(X))\](注:$\phi_{1}, \phi_{2}$ 使用 SiLU 激活函数;$rab^{p,t}$ 为相对注意力偏置。)
4.2 核心改进点
- 逐点聚合注意力(Pointwise Aggregated Attention):放弃了 Softmax,改用逐点注意力。这不仅能捕捉用户偏好的相对顺序,还能保留交互的绝对强度信息,对非平稳词表更鲁棒。
- 极低的显存占用:HSTU 采用全融合设计并去除了传统的 Feedforward 层,单层激活状态显存仅为 14d(相比标准 Transformer 的 33d 大幅降低),允许模型变得更深。
5. 核心创新 III:极高的训练与推理效率
5.1 训练优化:随机长度算法 (Stochastic Length, SL)
利用推荐序列的高度时间重复性,SL 算法以概率 $N_{c}^{\alpha}/n_{c,j}^{2}$ 保留或截断序列。在模型质量几乎无损的前提下,大幅增加了稀疏度,降低了训练成本。
5.2 推理优化:M-FALCON 算法
针对排序阶段成千上万的候选集,提出了 M-FALCON 算法。
- 通过修改注意力掩码并引入微批处理(Microbatching,$b_{m}$),将交叉注意力的复杂度从 $O(b_{m}n^{2}d)$ 降至 $O(n^{2}d)$。
- 支持了复杂度高出 285 倍 的交叉注意力模型,在相同的推理预算下实现了 1.50x 到 2.99x 的加速。
6. 实验结果与商业价值
6.1 效率与离线提升
- 在 8192 序列长度下,HSTU 相比 FlashAttention-2 版本的 Transformer,训练速度提升达 15.2 倍,推理速度提升 5.3 倍到 5.6 倍。
- 在 NDCG 等指标上,最高超越基线模型达 65.8%。
6.2 在线 A/B 测试
1.5 万亿参数的 GR 模型已在十亿级用户的互联网平台上部署,在线 A/B 测试中核心指标提升了 12.4%。
6.3 验证推荐领域的 Scaling Law
GR 的模型质量在跨越三个数量级的训练算力下(最高接近 GPT-3/LLaMa-2 级别算力),严格呈现出与算力相关的幂律分布(Power-law),打破了传统 DLRM 质量早早饱和的魔咒,铺平了通往推荐系统基础模型(Foundation Models)的道路。
Leave a Comment