快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

9205点击 2026-04-04 10:58

当推荐系统遇上大模型范式，广告变现的天花板被再次打破。快手提出 GR4AD，作为国内生成式推荐在大规模广告场景下的首次全量落地，实现广告收入提升 4.2%，服务 4 亿 + 用户。

论文链接：https://arxiv.org/pdf/2602.22732

一、引言："推荐该怎么做" 的新范式

过去十年，深度学习推荐模型（DLRM）几乎统治了整个工业界的推荐系统 —— 从召回到排序，从特征交叉到序列建模，它们构建了一套成熟而稳固的技术栈。然而，当大语言模型（LLM）的浪潮席卷而来，一个大胆的问题被抛了出来：

能不能像生成文本一样，直接 "生成" 推荐结果？

这就是生成式推荐（Generative Recommendation）的核心思想。以 TIGER、OneRec 为代表的一系列工作，已经在自然推荐场景中验证了这一范式的可行性。但当战场转移到大规模广告系统 —— 这个对时延、收益、商业价值都有极致要求的领域 —— 事情变得远没有那么直接。

快手的这篇论文，正是对这一问题交出的一份沉甸甸的工业级答卷。他们提出了 GR4AD（Generative Recommendation for ADvertising），一个横跨表征、学习、服务三大层面协同设计的生成式广告推荐系统，并已全量部署于快手广告平台，服务超过 4 亿用户。

二、问题与挑战：广告场景下的三大挑战

论文开篇就旗帜鲜明地指出：直接把 LLM 那套训练和推理范式搬到广告推荐上，是行不通的。具体来说，广告场景存在三个独有的核心挑战：

挑战一：广告物料的 Token 化 —— 多元信息的统一编码

广告不是普通的短视频。一条广告背后融合了视频创意、商品详情、广告主 B 端元数据等多模态、多粒度信息。更棘手的是，平台还提供了转化类型、广告账户等关键业务信号，这些信号具备强烈的商业价值但几乎没有 "语义内容" 可言。如何为广告物料打造一套既能捕获语义内容、又能编码业务信息的统一 Token 体系？

挑战二：学习范式 —— 面向商业价值的列表级优化

广告推荐的优化目标不是 "猜中用户会点哪个" 那么简单，而是要在 eCPM 排序、NDCG 等列表级指标下最大化商业价值。现有的生成式推荐方法大多沿用 LLM 的分阶段训练方式，不完全适配大规模推荐场景的持续在线学习，且缺乏面向排序的、列表级的学习设计。

挑战三：实时服务 —— 多候选生成的算力困局

不同于 LLM 聊天场景中 "解码一条回复、容忍较长延迟" 的模式，广告系统需要在极高 QPS 和极低延迟（<100ms）下，通过 Beam Search 同时生成大量高质量候选。这是一个与 LLM 不同的推理优化问题。

三、方法：全链路协同设计的破局之道

GR4AD 的方法论可以用一句话概括:"表征 - 学习 - 推理" 三位一体的推荐原生设计。下面逐一拆解。

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

3.1 统一广告语义 ID（UA-SID）：给广告一个 "身份证"

核心思想：用一个端到端微调的多模态大模型（MLLM）为每条广告生成统一嵌入，再通过精心设计的量化方法将其编码为离散 Semantic ID。

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

第一步：统一广告嵌入（UAE）

指令微调（Instruction Tuning）：针对快手广告的 6 种典型形态（直播、商品、达人等），设计了 6 套提示模板，引导 MLLM 从不同视角理解广告内容。比如对直播类广告，引导模型分析主播画像和地域特征；对外部投放广告，则聚焦产品行业和品牌信息。
共现学习（Co-occurrence Learning）：用户行为中的共现关系蕴含了丰富的协同信号。论文使用 Swing 方法估计物料共现强度，并采用 InfoNCE 对比学习目标将其注入表征：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

第二步：MGMR RQ-Kmeans 量化

这是 UA-SID 的 "杀手锏"。论文提出了多粒度 - 多分辨率（Multi-Granularity-Multi-Resolution）的 RQ-Kmeans 量化策略：

多分辨率（MR）：低层级使用更大的码本捕获主导语义因子，高层级用较小码本建模低熵残差，有效提升码本利用率。
多粒度（MG）：在最后一层用基于非语义特征的哈希映射替代向量量化 —— 将转化类型、账户 ID 等业务信号直接编码进 SID，一举解决 "相同内容、不同投放策略" 导致的 SID 碰撞问题。

最终每个广告物料被映射为一个离散 UA-SID 序列：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

3.2 LazyAR：懒惰解码器的大智慧

生成式推荐在推理时需要通过 Beam Search 生成多个候选 SID 序列。标准自回归解码要求每一层都依赖上一步的输出，这在 Beam 数很大时造成了巨大的计算瓶颈。

论文的一个关键观察是：第一层 SID 最难学、损失最大，但它的 Beam 只有 1（从 BOS 开始）；后续层级更容易，Beam 却呈指数级膨胀。大部分计算被浪费在了 "简单的事情" 上。

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

LazyAR 的核心操作：将对上一步 token 的依赖 "延迟" 到中间某一层（第 K 层）注入：

前 K 层（并行层）：不依赖上一步 token，仅基于位置编码和上下文 X 进行计算，所有层级和所有 Beam 可以并行计算并共享。
后 L-K 层（自回归层）：注入上一步 SID 嵌入后进行标准自回归解码。

为什么 LazyAR 有效？

1. 第一层 SID 的解码过程完全不受影响（从 BOS 经过全部 L 层）。

2. 前 K 层在潜空间中进行推理，能编码关于候选 token 的有用信号。

3. 引入 MTP 辅助损失，强制前 K 层即使没有上一步 token 也能学到足够信息。

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

4. K 是可调超参，提供灵活的精度 - 效率权衡。实验中在保持推荐质量的同时将推理吞吐量翻倍。

3.3 价值感知的监督学习（VSL）

在广告场景中，不同样本的商业价值天差地别。VSL 围绕 "价值感知" 做了三件事：

① SID + eCPM 联合预测：在标准 SID 交叉熵损失之外，将 eCPM 离散化为桶并追加为额外的预测 token：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

② 价值感知样本加权：每个样本的权重，高广告价值用户和深度交互行为（如购买）获得更高权重。

③ MTP 辅助损失：配合 LazyAR，强制前 K 层并行解码的表征质量。

最终 VSL 目标：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

3.4 排序引导的强化学习（RSPO）：从 "学分布" 到 "优排序"

VSL 能拟合历史数据分布，但它不直接优化下游排序目标，也不支持对未知标签分布的探索。论文因此引入了 RSPO（Ranking-Guided Softmax Preference Optimization），一个面向列表级 NDCG 优化的 RL 算法。

RSPO 的核心 loss：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

其中遵循 Lambda 框架，论文证明了 RSPO 是 NDCGcost 的上界，从理论上保证了对排序指标的直接优化。

几个精妙的工程设计：

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

参考模型的可靠性门控: 样本来源多样（有些来自 GR4AD 自身、有些来自其他 pipeline），不总是可靠的。当模型与参考分布偏差过大时，自动关闭参考约束，避免噪声正则化。
VSL 与 RSPO 的统一在线训练：通过样本级对齐分数动态调整两个目标的权重 —— 模型排序与奖励排序偏差大时加重 VSL（学好基础分布），偏差小时加重 RSPO（精细化价值优化）。

四、线上部署：工业级系统的全闭环设计

GR4AD（0.16B 参数）已全量部署于快手广告系统，实现了一套 “奖励估计 → 在线学习 → 实时索引 → 实时服务” 的完整闭环。

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

4.1 四大核心模块

奖励系统（Reward System）：训练独立的 Reward Model 对 GR4AD 生成的候选集进行 eCPM 评分，在放松延迟约束的环境下进行更大 Beam 的探索，为 RL 训练提供高质量信号。
在线学习模块：实时构建 VSL 和 RL 两种训练信号，持续进行 mini-batch 更新，实时推送参数到推理服务。
实时索引模块：用 SID 替代传统嵌入索引。新物料到达时只需计算 UA-SID 并更新双向索引（UA-SID ↔ Item ID），秒级生效，大幅改善冷启动覆盖和时效性。
实时服务引擎：处理用户请求并返回排序广告列表。

4.2 推理效率优化：把算力用在刀刃上

动态 Beam 服务（DBS）是本文的又一亮点，包含两个子机制：

动态 Beam 宽度（DBW）：用递增的 Beam 调度（如 128→256→512）替代固定宽度（512→512→512），在不损失最终候选质量的前提下大幅削减中间层计算。
流量感知自适应 Beam 搜索（TABS）：根据实时 QPS 自动调整 Beam 规模 —— 低峰期加大 Beam 提升推荐质量，高峰期收缩 Beam 保障延迟和吞吐。

此外还有一系列工程优化：Beam 共享 KV Cache：将 Beam 从 batch 维度转移至序列维度进行组织，实现 KV Cache 的共享，显著提升内存访问效率（+212.5% QPS）、TopK 预裁剪：先并行选取每个 Beam 的 K 个候选结果，再对聚合候选集进行全局 Top-K 选择，在有效缩减搜索空间的同时保证准确性（+184.8% QPS）、FP8 低精度推理（+50.3% QPS）、短 TTL 结果缓存（+27.8% QPS）。

最终效果:<100ms 延迟，500+ QPS/L20 GPU。

五、实验效果：广告收入和推理性能的双赢

5.1 总体性能与消融实验

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

几个关键发现：

RSPO 是所有优化中增益最大的单一组件，显著优于 DPO 和 GRPO，验证了列表级 RL 在广告场景的不可替代性。
LazyAR 以极微小的精度代价换来了吞吐量翻倍，是实际部署的关键使能技术，优于 DeepSeek-MTP。
DBS 在不损失收益的前提下进一步提升了效率，TABS 机制在低峰期还能反向提升收入。

5.2 Scaling Law

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

模型规模方向：从 0.03B 到 0.32B，收入提升从 + 2.13% 单调增长到 + 4.43%，训练损失也持续下降。生成式广告推荐的 Scaling Law 是成立的。

推理规模方向：Beam 宽度从 128 增加到 1024，收入从 + 2.33% 提升到 + 4.21%。这意味着更强的推理时搜索能进一步释放模型潜力 —— 这与当前 LLM 领域 Test-time Scaling 的趋势遥相呼应。

5.3 UA-SID 质量

快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

在嵌入质量评估（photo-to-photo recall）中，经过指令微调和共现学习的 UAE 达到了 R@1=0.896，远超基线 QARM（0.541）和原始 Qwen3-VL-7B（0.769）。MGMR 量化将 SID 碰撞率从 85.44% 降至 18.26%，码本利用率提升 3 倍以上。

5.4 商业指标的全面胜利

商业化广告收入 4.2%+
中小广告主投放量提升 17.5%
广告转化率提升 10.17%
低活用户转化率提升 7.28%

基于内容的 SID 带来的更强泛化能力和更实时的索引对冷启动物料的更好支持，实现了平台、广告主、用户的三赢。

六、总结与思考

GR4AD 这篇论文的价值，不仅在于它达成了 4.2% 的收入提升这个数字，更在于它系统性地回答了一个关键问题：生成式推荐在广告这个最 "硬核" 的工业场景中，到底应该怎么做？

它的答案是：不要照搬 LLM，要做推荐原生的设计。

Token 化不能只看内容语义，要把业务信号编码进去（UA-SID + MGMR）。
训练不能只做单点概率生成，要做价值感知的列表级优化（VSL + RSPO）。
推理不能只套用 LLM 加速技巧，要针对 "短序列、多候选、Beam Search" 的推荐特性做专门设计（LazyAR + DBS）。
系统不能离线批处理，要做实时索引、在线学习、闭环反馈的全链路打通。

GR4AD 是生成式推荐走向广告工业核心场景的一个重要里程碑。快手用超过 4 亿用户的真实流量验证了这条路径的可行性。可以预见，接下来会有更多广告平台跟进这一范式。

文章来自于微信公众号 "机器之心"，作者 "机器之心"

关键词: 模型训练 , GR4AD , 人工智能 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales