UniScale（阿里淘宝）：参数堆不动了？搜索排序的 Scaling 瓶颈其实在数据侧

4 minute read

Published: March 26, 2026

论文：UniScale: Synergistic Entire Space Data and Model Scaling for Search Ranking 机构：阿里巴巴 Taobao & Tmall Group 场景：淘宝电商搜索排序系统（已线上部署）

背景：纯参数扩展的天花板

如果将近两年工业排序系统的演进压缩为一条主线，它大致是这样的：HSTU 通过 spatially efficient transformer 提升序列建模的可扩展性，Wukong 探索了高阶特征交互的 scaling law，RankMixer 用 token-mixing 范式解决可扩展特征交互，OneTrans 将 sequential 与 non-sequential 输入统一进同一个 Transformer backbone。这些工作的共同逻辑是——更大的模型、更强的结构，效果应当随之提升。训练数据是固定的，这一点在这条主线上几乎从未被作为变量讨论。

论文的核心观察是：在固定数据量的前提下，持续扩大参数规模的边际收益会稳定递减。因为如果训练信号本身有偏且覆盖有限，模型能学到的上限就已经被数据框死了，再大的结构也无法突破这个天花板。工业搜索排序系统的训练数据通常只包含 exposed samples，即真正曝光给用户的候选，由此带来的 selection bias、exposure bias 与 cross-domain blind spot，才是制约 scaling 效果的真正瓶颈。

那直接扩充数据呢？也不是一条坦途。把推荐场景的用户行为直接混入搜索训练，分布差异会导致严重的负迁移——UniScale 的消融实验给出了一个直观的数字：加入跨域数据但不做任何架构适配，AUC 下降 -0.43%。数据扩展的代价，是对架构提出了新的要求。

由此，UniScale 的核心主张是：数据扩展与架构扩展必须协同设计（co-design）。ES³ 负责以高质量的方式将训练信号从 search-exposed 扩展到全空间用户反馈；HHSFT 负责有效建模由此产生的异构复杂分布。两者缺一，都无法释放 scaling 的真实潜力。

整体框架

UniScale 由两个核心模块构成：

ES³（Entire-Space Sample System）：数据侧，负责将训练信号从 search-exposed 样本扩展到全空间用户反馈，同时通过各项设计控制负迁移；
HHSFT（Heterogeneous Hierarchical Sample Fusion Transformer）：架构侧，负责有效建模 ES³ 产生的异构复杂分布。

UniScale 整体架构

ES³：全空间样本系统

传统搜索排序训练的数据集只包含 exposed samples——即真正曝光给用户的候选。这会带来三类偏差：

Selection bias：模型只见过”被选中的候选”，inference 时面对全量候选集，训练-推理分布不一致；
Exposure bias：转化标签采用 last-click attribution，只有最后一次 search click 的物品才获得转化信用，跨会话转化被抛弃；
Cross-domain blind spot：用户在推荐侧、广告侧的大量行为（点击、转化）完全没有进入搜索排序模型的训练。

ES³ 通过两个子模块系统性地解决这三类问题：

ES³ 概览

3.1 域内样本与标签扩展

Unexposed Sample Expansion：从每个 search request 的完整候选列表中均匀随机采样未曝光物品。这一步将训练分布与推理时的候选空间对齐，缓解 selection bias。

不过，直接将 unexposed 样本当作纯负例是有问题的。用户没看到某件商品，不代表他不感兴趣，而且这样做会放大热度偏差——热门商品更容易被曝光，unexposed 商品的负标签会反过来惩罚冷门物品。

Hierarchical Label Attribution：为此，论文提出了层次化的跨域信号归因机制：

跨域 click（如推荐侧点击）：优先归因到 search-exposed 样本 → 次之归到 unexposed 样本；
跨域 conversion：优先归因到 search-click 样本 → 次之到 exposed-unclicked → 最后到 unexposed。

这套归因的核心逻辑是：用户在全路径上的正向反馈，都应该作为监督信号传递到相关的训练样本上，而不是因为 attribution 策略的局限而浪费。

这里其实有一个更上游的隐忧。搜索侧的 click intent 是明确的——用户带着 query 来，点击行为与搜索意图高度一致。但推荐侧的 click intent 模糊得多，用户可能只是随手刷到、好奇点开。把推荐侧这种模糊意图的 click 归因到搜索 unexposed 样本上，可能引入 intent 不一致的归因噪声。论文没有讨论这一层风险，但在实际部署中，这类噪声对搜索转化预估的影响可能是不可忽略的。

3.2 跨域样本搜索化

用户在推荐 feed、广告场景的大量行为包含有价值的兴趣信号，但有两个障碍：（1）缺少 query 字段；（2）特征 schema 与搜索场景不一致。

为此，ES³ 设计了 Sample Searchification Engine，将任意域的用户行为转化为搜索对齐的伪搜索样本：

Negative Sample Generation Module：推荐场景一个 request 内的商品语义高度异构（一次 feed 可能混着服装和电器），直接把 unclicked 物品当负例会引入 query 无关噪声。ES³ 对每个非搜索的 click 样本，从同一 request 内选择语义相似的 unclicked 物品作合成负例，保持语义一致性。

Feature Alignment Module：三级策略合成 query：

优先复用该用户对该物品的历史搜索 query；
若无，从物品-query 共现统计中选高频 query；
若仍无，用物品标题 embedding 做 ANN 检索，找最近语义 query。

所有 searchified 样本走同一套搜索 feature logging 基础设施处理，最终与原始搜索样本在 feature schema 上完全对齐。

ES³ 的数据规模量化（相对于 baseline search-exposed-only）：

阶段	Requests	Samples	Click Positive
Baseline	1.0×	1.0×	1.0×
+ Unexposed Expansion	1.0×	3.0×	1.0×
+ Hierarchical Label Attribution	1.0×	3.0×	2.0×
+ Cross-domain Searchification	2.0×	5.0×	4.0×

此外，ES³ 将数据格式重组为 list-wise（每行一个 request + 所有候选 item），user/query 特征在 request 级别共享，节省约 50% 存储和 IO。

HHSFT：异构层次样本融合 Transformer

数据扩展之后，模型需要能够有效建模由此产生的异构复杂分布。HHSFT 在两个层次上处理这一问题：特征交互层和全空间用户兴趣融合层。

HHSFT 架构

4.1 Heterogeneous Hierarchical Feature Interaction (HHFI)

首先，HHSFT 将输入特征按语义分组（用户属性、物品属性、query、用户行为序列等），每组通过 MLP 映射到统一维度，形成 token 序列。

标准 Transformer 对所有 token 共享同一套 QKV 投影矩阵。但搜索场景的输入特征语义空间差异极大——用户 ID（categorical）、物品价格（continuous）、行为序列（sequential）本质上来自不同的语义空间，强行共享投影会导致语义混淆。

这里与已有统一 backbone 工作的关注点有所不同。OneTrans 和 MixFormer 也做了 heterogeneous token 的统一处理，它们的核心问题是”sequential 特征与 non-sequential 特征如何在同一 Transformer 里协同扩展”；HHFI 的核心问题则是”多域混合训练之后，如何避免不同语义空间的特征相互污染”。两者的出发点相似（异构特征的 tokenization），但驱动力不同：OneTrans/MixFormer 是为了统一建模提效，HHFI 是为了在数据分布更复杂时保住特征语义的独立性。

Heterogeneous Feature Attention (HFA)：为每个 token 类型分配独立的 QKV 投影矩阵和独立 FFN，保留各特征域的语义特性。具体是 token-specific 的 \(W_i^Q, W_i^K, W_i^V\)，在各自变换后做标准 MHSA。

Global Feature Attention (GFA)：在 HFA 之上，用 composite projection（将所有 token 表示拼接后整体投影）建模高阶全局交互。这一层不再 token-wise，而是从所有特征的整体表示中学习 cross-token 高阶依赖。

两层叠加形成”先保留异构特性，再建模全局高阶交互”的层次结构。

4.2 Entire Space User Interest Fusion (ESUIF)

这是 UniScale 的第二个核心模块，专门处理 ES³ 引入的多域数据导致的负迁移问题。

从问题定义上，ESUIF 与字节的 MDL、美团的 MTmixAtt 都在处理多域/多场景的分布差异。但它们面对的分布差异量级是不同的：MDL 的多场景是同一平台内的不同 tab（比如首页推荐 vs 发现页），分布差异相对有限；UniScale 跨的是搜索 vs 推荐 vs 广告，分布差异量级大得多。这更能解释为什么不加 ESUIF 时负迁移高达 -0.43%——域间分布 gap 越大，不做显式隔离的代价越重。

此外，ESUIF 的驱动场景也不同：不是”推荐系统本身有多个场景需要服务”，而是”为了扩大搜索模型的训练数据，把推荐/广告域的行为引入进来，然后需要防止这些外来数据污染搜索优化目标”。这是一个更偏数据侧驱动的多域问题，比 MDL/MTmixAtt 更关注梯度隔离，而非场景感知。

Domain-Routed Expert Fusion (DREF)：

设置 domain-shared expert \(f_s\)，接收所有域的样本，学习跨域共性；
为每个域设置 domain-specific expert \(f_d\)，仅接收并反传本域样本的梯度，将跨域噪声隔离在优化层面；
Sample-level gating 做自适应融合：\(e = \alpha_s \cdot f_s(z) + \alpha_d \cdot f_d(z)\)

这与标准 MoE 的关键区别在于梯度隔离：standard MoE 的所有 expert 都接收所有域的梯度更新，hard routing 才能真正在优化层面避免负迁移。

Domain-Aware Personalized Gated Attention (DAPGA)： DREF 做了结构解耦，但目标是把其他域的知识”迁移进”搜索域的表示。DAPGA 做跨域知识迁移：

每个样本通过所有域 expert 得到多视角表示；
用目标域（搜索）的表示作 query，所有域表示作 key/value，做 SDPA，以目标域为主导选择性吸收跨域信息；
对跨域 key/value 做 gradient stopping（\(sg(\cdot)\)），防止跨域样本的噪声梯度通过 attention weights 反传；
用用户特征 + 域特征生成个性化 sigmoid gating 向量 \(\gamma\)，做 element-wise 调制，增强跨域迁移的个性化和域感知。

DREF 和 DAPGA 共同工作的消融结果：

样本	设置	AUC	GAUC	HR@5
search-only	HHFI	—	—	—
search-only	HHFI+DREF+DAPGA	+0.02%	+0.01%	+0.02%
ES³	HHFI（无ESUIF）	-0.43%	-0.24%	-4.76%
ES³	HHFI+DREF	+0.19%	+0.25%	+0.39%
ES³	HHFI+DAPGA	+0.22%	+0.18%	+0.17%
ES³	HHFI+DREF+DAPGA	+0.32%	+0.26%	+0.44%

-0.43% → +0.32% 的转变是 UniScale 数据-架构协同必要性最清晰的证明：数据扩展后，没有 ESUIF 的架构不仅无法从新数据受益，反而受损。

4.3 训练与部署优化

为支持大规模工业部署：

训练侧：feature pre-hashing（减少内存开销）、RDMA 代替 TCP 做分布式通信；
推理侧：FP16 量化、tile-level op push-down、fused masked QKV attention kernel；
最终效果：GPU 推理成本↓55%，训练开销↓40%。

实验结果

离线对比（DLRM-MLP 为基线）：

Model	AUC	GAUC	Params(M)	TFLOPs
DCNv2	+0.08%	+0.01%	24	0.65
Wukong	+0.21%	+0.13%	32	0.94
RankMixer	+0.38%	+0.32%	140	1.93
HiFormer	+0.54%	+0.49%	170	1.98
HHSFT	+0.82%	+0.62%	300	1.22
HHSFT + ES³	+1.14%	+0.86%	300	1.22

几个关键观察。HHSFT 在 1.22 TFLOPs 下超过了 HiFormer 的 1.98 TFLOPs——用更少的计算量拿到了更好的效果，说明 HHFI 的层次设计在计算效率上确实有优势。RankMixer 在 140M 参数、1.93 TFLOPs 下只有 +0.38%，低于 HHSFT 的 +0.82%。但需要注意：RankMixer 的 token mixing 设计主要针对特征交互效率而非异构分布建模，且两个工作的场景不同（推荐 vs 搜索排序），直接比较要打折扣。

更有说服力的对比是 HHSFT vs. HHSFT+ES³：同一架构，仅增加数据多样性，AUC 再涨 +0.32%。这个增量比 RankMixer 相对于 baseline 的全部增益还要大。换句话说，在架构足够强的前提下，数据侧的边际收益可以超过一整套新 backbone 的贡献。这是 co-design 价值最直接的体现。

再说 SORT 与 UniScale 的定位关系。两者都来自阿里电商搜索场景，但处于 scaling 路线的不同环节：SORT 回答的是”排序 backbone 该长什么样”，UniScale 回答的是”在 backbone 扩展遭遇收益递减后，训练数据该怎么扩”。两者并不矛盾，甚至是互补的。一个自然的问题是：UniScale 的 HHSFT 与 SORT 的 backbone 之间是否存在演化关系？论文没有明确说明，但 ES³ 的数据扩展方案在理论上不依赖特定 backbone，可以与 SORT 或其他架构组合。

协同扩展定律验证：

模型规模 4× 时，search-only 数据 vs. ES³ 数据的 AUC gap 从 +0.12% 扩大到 +0.32%——数据多样性的边际价值随模型规模增大而放大。

Scaling 曲线

不过，对这个”定律”需要保持审慎。论文只提供了两个数据点（1× 和 4× 模型规模），两点确定一条线，但不足以确立 scaling law。数据-模型协同扩展的趋势是否在更大规模上持续成立，还是会像纯参数扩展一样遇到新的天花板，这需要更多数据点才能判断。

线上 A/B（10 天，5% 流量）：

购买率：+1.70%
GMV：+2.04%

思考与延伸

Searchification 的质量瓶颈

ES³ 的三级 query 生成策略（历史复用 → 共现统计 → ANN 检索）是整个数据扩展的关键支撑。但这三级的质量差距可能很大：历史复用最准确，覆盖率却最低；ANN 检索覆盖率最高，语义误差也最大。论文没有给出三级策略各自的覆盖比例和质量影响——这其实是个关键缺失。如果大量样本走的是 ANN 检索，合成 query 的噪声会不会反过来毒化搜索模型？是否存在”质量太差的合成样本直接丢弃优于使用”的阈值？这直接决定了 ES³ 方案在不同数据条件下的可复制性。

梯度隔离的代价与平衡

DREF 的 hard routing 在梯度层面彻底隔离了跨域噪声，这一点很干净。但代价也很明确：domain-specific expert 的参数只能被本域样本训练。当跨域样本量不均匀时（搜索样本远多于推荐），小域 expert 的参数利用率会很低，大域 expert 则可能过拟合。DAPGA 的 gradient stopping 也有类似的取舍——跨域 KV 投影矩阵不会被目标域信号优化，只能靠各自域的监督来学习。

这套”单向透明，双向隔离”的设计在搜索与推荐差异大时收益最明显。但如果跨域兴趣差异较小（比如不同品类的搜索之间），这种强隔离是否过于保守？放松隔离会不会反而更好？论文的消融没有覆盖这个维度。

泛化性：淘宝之外呢？

这是读完后最想追问的问题。UniScale 在淘宝验证，而淘宝搜索与推荐共享同一批用户和同一个商品池——用户重叠率极高，商品语义空间一致。ES³ 的跨域数据之所以有效，很大程度上依赖这个前提：推荐侧的用户行为确实携带了对搜索侧有价值的信号。

但换一个场景呢？如果用户重叠率低（比如一个平台的搜索和另一个平台的推荐），或者商品池差异大（搜索侧以标品为主，推荐侧以内容商品为主），ES³ + ESUIF 是否还能成立？DREF 的 hard routing 和 DAPGA 的 gradient stopping 是否足以处理更极端的分布差异？这是一个比当前论文覆盖范围更根本的开放问题，也是 co-design 思路能否从淘宝特例推广为通用方法论的关键。

一句话总结

如果只从这篇论文带走一个判断：当前搜索/推荐大模型化的瓶颈，可能不在模型结构，而在训练数据的信息密度和多样性。-0.43% → +0.32% 这组数字说明，数据扩展不做架构适配会受伤，但做好适配后的收益超过了一整套新 backbone 的贡献。在大家都在卷 backbone 的时候，这个视角是一个有用的提醒——当然，它的普适性还需要淘宝之外的验证。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

ychzhou