淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区

标题: KDD'23 | 阿里淘宝：重新审阅搜索粗排 [打印本页]

作者: 运营笑笑 时间: 2024-8-5 17:01
标题: KDD'23 | 阿里淘宝：重新审阅搜索粗排

本文约3600字，发起阅读5分钟本文先容了阿里淘宝搜索的最新工作模块。

各人好，我是kaiyuan。迩来大模子LLM的各类信息有种乱花渐欲迷人眼的感觉，刷几篇KDD'23的文章岑寂一下。

本日禀享阿里淘宝搜索的最新工作，发表在KDD'23上：Rethinking the Role of Pre-ranking in Large-scale E-Commerce Searching System[1]。【团体思绪非常清晰样，用的评估指标、模子框架等，同样可以应用在向量召回模块】。

论文对电商搜索粗排模块举行重新定位，提出了新的离在线同等性更高的评价指标，并基于此优化全域多目的学习框架（All-Scenario-based Multi-Objective Learning framework，ASMOL ），AB测试结果GMV提升1.2%。

现在大厂的搜索体系根本是多阶段级联架构，如下图，告急由召回、粗排、精排、重排等部门构成。

召回：该模块告急目的是从海量候选池中尽大概召回全部干系的商品，通常会有多种召回路，比如文本召回、个性化X2I召回、U2I向量召回、多模态召回、图召回等等；商品量级一样寻常从 ~ ；
粗排：位于全链路承上启下的关键位置，目的是对召回的商品先做一次过滤，克制给精排太大的压力；商品量级一样寻常从 ~
精排/重排：模子相对更复杂，更关注对商品的精准预估排序，再通过机制战略后终极展示给用户；商品量级一样寻常从 ~

粗排作为承上启下的模块，受限于算力等因素，模子告急有两种演进门路：

双塔结构：以DSSM为代表，用户侧和商品侧信息分别喂入差别的DNN，得到各自embedding后点积作为打分。双塔分离的结构长处是在面对海量候选集时可以包管线上快速serving，但同时受限于双塔，无法使用一些更复杂的交织特性和交织建模，导致模子表达本领弱。关于双塔更多细节保举塔哥的文章：久别邂逅话双塔[2]
交织结构：另一种门路是精排的轻量级退化版本，通过特性选择、知识蒸馏、网络结构压缩等方式到达交互模子作用在粗排，如FSCD、COLD、AutoFAS等。

固然模子结构有差别的演进门路，但粗排的目的比年来不绝是比力明白的：聚焦在怎样对齐精排的排序本领上，一些评估指标也以AUC、精排同等性为主。乃职苄些团队的粗排模子练习数据仍和精排保持同等，这会带来严厉的SSB题目（下文会详细先容）。同时，疯狂地拟合精排，固然短期会带来部门收益，但从长期看会带来严厉的马太效应。

着实，跳出这个怪圈，我们没须要把粗排架得那么高，粗排模块只须要从大量的候选中找到一个服从最优的商品聚集即可，对这些商品的排序只是一个附加要求（否则要精排干啥呢对吧）。

重界说评估指标：全域Hitrate

做过召回的同砚都清晰，离在线指标对齐是一个非常头疼的题目。由于召回模块位于团体搜索链路的最底层，中心存在各个模块的复杂逻辑，到终极曝光给用户，离线指标的收益很难与在线转化指标很好地对应。

粗排也同样面对如许的题目，先容全域hitrate之前，先来看看通例的评价指标。粗排位于全链路的中心，须要同时思量 「召回->粗排」以及「粗排-> 精排」 两阶段的丧失，才华做好承上启下的工作，单看任何一部门都是片面的。

启下：粗排->精排丧失权衡

精排更注意商品的排序精度，因此以下粗排指标也雷同

AUC ：曝光空间下的AUC，有购买活动的商品作为正例。淘宝搜索一页哀求会出10个商品，通常使用AUC@10来权衡，精排模子也使用该指标，因此可以借此评估粗排和精排的同等性水平；
粗排hitrate@10 ：粗排越头部的商品能带来更多搜索场景内成交，分析粗排排序本领更强，与精排本领更靠近；
曝光商品粗排总分与精排服从分数的NDCG/逆序对：对雷同商品聚集，粗排打分和精排打分的排序差别，差别越小，分析两者越靠近。

承上：召回->粗排丧失权衡

承上阶段，粗排须要更多关注商品聚集的优劣，这与召回的目的是同等的，通常使用hitrate@k来权衡。

分母是全部正例聚集（可以是点击/加购/购买等），分子是粗排top商品聚集和正例聚集的交集。

但差别于各召回分支，曝光商品完全来自于粗排输出，因此粗排输出聚集的hitrate肯定是100%，在该指标上，新模子肯定是打不外线上基线的。

全域hitrate：场景内纠偏

既然场景内hitrate（In-Scenario Purchase Hitrate@k，ISPH@k ）是有偏的，一个直观的想法就是增补更多其他场景的正例来纠偏，称为全域hitrate（All-Scenario Purchase Hitrate@k，ASPH@k），详细地，可以引入保举、广告、购物车等非搜索场景成交的样本。

但由于非搜索场景不存在query，作者通过干系性作为关联条件，将用户在场景外的成交item，关联到用户在场景内的query上，且要求场景内query和场景外成交item构成的query-item对满足肯定的干系性条件。

基于上述的指标（ISPH@k和ASPH@k），作者对淘宝搜索各个模块的现状举行了分析和对比，也可由此探索优化的上限空间。

论文新提出的粗排模子在打分商品聚集数量凌驾2000时，模子本领已经凌驾精排，且随着聚集的扩大，gap越大，分析粗排不能盲目对齐模仿精排。
那么一个题目是，怎样验证全域hitrate指标的有效性？对粗排输出聚集总数为2500和3000分别举行A/B测试，假如 ISPH@k评估有效，则输出3000个的在线业务指标应该更高。假如 ASPH@k有效，则结论相反。在线结果表明，输出3000个商品的业务指标比输出2500个的更低，这进一步证明了ASPH@k 指标的有效性。

优化方案

在先容优化方案之前，提一下传统的粗排模子筹划。

模子：双塔，pointwise学习，sigmoid丧失学习CTR和CVR，终极收效CTR*CVR
样本：来自曝光空间，曝光点击为正样本，曝光未点为负样本

淘宝新版粗排模子大图如下所示。告急优化点包罗练习样本构造、全域样本学习、精排模子蒸馏、多目的丧失函数优化等等，下面分别详细先容。

练习样本&标签

差别于一样寻常排序模子，这里的粗排练习样本使用的是user&query（哀求）维度的，一条record内会包罗多个正样本和负样本。包罗了以下几种：

曝光样本（Exposure，Ex）：一条哀求中直接展示给用户的商品，岂论是否点击或购买等，一共N个；
精排样本（Ranking Candidates，RC）：在线serving时粗排模块送给精排的样本聚集（且未曝光），一样寻常几千个，会随机从中采样M个；
粗排样本（Pre-Ranking Candidates，PRC）：在线serving时召回模块送给粗排的样本聚集（且未被粗排选中），一样寻常数十万，会随机从中采样L个。

前面提到了粗排评估指标：全域成交hitrate ，一个直接优化的方式就是引入全域成交样本，将其添加到曝光样本中，同时将曝光、点击和成交标签都设为1。同时，将之前全域有成交活动但被作为负例的样本修正标签，将其成交标签置为1。

精排样本和粗排样本会作为全部任务的负样本，目的是为了让粗排模子保持练习和推测空间的同等性，克制严厉的SSB题目。

只使用曝光样本的模子结果最差，由于在线serving时，对练习没见到过的候选商品无法做出精准预估，这会使得粗排输出聚集结果欠好；
对比三、四行，PRC作为简朴负样本，RC作为困难负样本，加上困难负样本对模子结果资助更大；

别的，差别负样本的配比也会对结果产生影响。

蒸馏精排

粗排模子想要得到更好的预估精度，学习精排是一个非常常见的思绪，业界也已经有非常多的乐成落地方案。通过知识蒸馏的方式学习精排，有几个长处：

一方面可以进步精排模子和粗排模子的同等性，使粗排模子倾轧来的商品更容易被精排模子继承；
另一方面，由于精排模子输入特性和模子结构都比粗排模子复杂，因此引入蒸馏任务可以进步粗排的本领。

论文接纳的是对精排模子产出的CTR和CTCVR打分举行学习，

实验结果表明，只在曝光样本上举行蒸馏，粗排模子指标更好（也从另一角度证明，精排对于其未见过的样本打分是不精准的，假如再在这部门举行蒸馏学习，会带来一些噪声）。

学习任务

样本的构造情势是list-wise的，故丧失函数选用list-wise ranking loss，针对曝光、点击、购买分别建模

但是当一条样本中有凌驾一个正例时，直接使用softmax的情势会使得正-正样本之间产生不公道的比力。参考Circle-Loss，对丧失函数举行了优化：

终极会加上上一节的蒸馏丧失一起盘算总丧失

总结

文章一泰半篇幅在分析粗排评估指标以及验证粗排模块在搜索全链路中的定位，分析清晰题目、优化指标，已经乐成一泰半了。模子优化也没有让人感觉是那种花里胡哨无法落地的强行讲故事，能落地且有结果，猛烈保举干系方向的同砚一读！

末了，简朴摆列下一些重点：

离在线指标同等性是召回粗排同砚不绝面对的困难，论文提出全域成交hitrate 指标，可以更好地无偏地分析离在线同等性。

from：承上启下：基于全域漏斗分析的主搜深度同一粗排

全域成交hitrate不光可以引导粗排的优化，也可以作为精排、重排等模块的迭代参考。可以对全链路每个模块盘算该指标，从前今后分析每一阶段的丧失与提升空间。
精排不是全能的，粗排不可盲目对齐学习它。现在精排都是在曝光空间学习的，对于位于腰部的商品打分未必由于粗排（或答应以通过修正精排学习空间来办理，但同时也会带来精排对头部商品的预估本事故差，是一个跷跷板题目）
召回粗排模子的负样本很告急，正负样本的设置也同样告急。通过负采样来办理SSB题目应该是一个知识了，但详细怎样实现大概与业务更干系，没有绝对的标准答案，须要做大量实验去探索。
粗排模子优化的目的起首是聚集团体的质量，其次才是商品间的排序。
基于上一条，召回粗排模子，listwise+softmax的学习方式优于pointwise+sigmoid 。可以同时学习正样本之间、正负样本以及负样本之间的区别差别。
对于召回粗排而言，Hitrate 比 AUC 更可靠。当两者出现辩说时，实验证明应优先信任hitrate。
softmax对多个正样本丧失的优化，可以学习下，比直接暴力对logits乘上N要优雅；
精排蒸馏可以思量参加精排次序的学习；
文中对于user塔和item塔的细节放在了附录，是比力常见但有效的建模思绪

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

作者: tiantian987 时间: 2024-8-10 19:59
看看学习下支持个

作者: lookafer 时间: 2024-8-11 04:52
很好学习了

作者: 442156446 时间: 2024-8-11 07:13
过来学习啦哈哈

作者: qph370 时间: 2024-8-17 01:29
写的不错谢谢分享

作者: lyglulu 时间: 2024-8-18 11:11
学习到了赶快利用一下去

作者: amaoamao 时间: 2024-8-22 13:48
谢谢老板的帖子

作者: webcnnc 时间: 2024-8-25 22:08
66666666666666

作者: 夢中的旋律 时间: 2024-8-31 16:41
厉害学习到了

作者: suggestest 时间: 2024-9-6 17:04
6666 不错好文章

作者: 100yes 时间: 2024-9-9 10:53
谢谢楼主分享

作者: xiaowei119 时间: 2024-9-12 04:22
不知道实力运用这个方法会怎么样

作者: lenit 时间: 2024-9-13 22:37
支持楼主来学习一下

作者: qqpp2008 时间: 2024-9-19 03:19
来学习下,每天学习才能不断地进步开好淘宝店

作者: 江南论坛 时间: 2024-9-21 23:05
楼主很优秀啊

作者: 精灵水仙 时间: 2024-9-29 06:18
很不错谢谢分享

作者: 闪光 时间: 2024-9-29 21:39
来论坛来学习淘宝知识的

作者: z123ml 时间: 2024-11-22 20:43
多谢楼主的分享

作者: xin868092 时间: 2025-2-18 04:07
文章很好,学习了楼主

欢迎光临淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区 (https://tao92.com/)