马上注册,结交更多淘宝商家,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
在电子商务搜索范畴,语义匹配直接影响到用户体验。查询改写技能作为弥合语义匹配过程中固有语义鸿沟的告急技能,受到了工业界和学术界的广泛关注。然而,现有的查询改写方法通常难以有用地优化长尾查询,也难以缓解语义鸿沟导致召回过程中出现的“无少结果”征象。针对这一征象,淘天团体算法技能团队提出了一个基于大语言模子的查询改写框架——BEQUE,它可以消除长尾查询的语义鸿沟。BEQUE 已于 2023 年 10 月在淘宝网上摆设。在线 A/B 测试表明,我们的方法可以明显进步长尾查询的商品买卖业务总额(GMV)、买卖业务笔数(#Trans)和独立访客数(UV)。基于该工作整理的论文已发表在WWW 2024,欢迎阅读交换。作者:才达、如鸣、丹鸥、元涵论文:Large Language Model based Long-tail Query Rewriting in Taobao Search在本文中,我们提出的BEQUE可以消除长尾查询的语义鸿沟。具体来说,BEQUE包罗三个阶段:多指令监督微调、离线反馈和目的对齐。我们起首基于拒绝采样和辅助使命肴杂构建一个查询改写数据集,以有监督方式微调我们的大语言模子。随后,利用该大语言模子,我们采取波束搜索(beam search)天生多个候选改写,并将其输入到淘宝离线体系以得到候选改写的偏序关系。随后,我们引入了一种对比学习方法以突出改写之间的区别,并使模子训练目的与淘宝网的线上目的保持划一。离线实行证明白我们的方法在弥合语义鸿沟方面的有用性。 已往几十年来,淘宝、京东和亚马逊等电子商务公司已积聚了数以亿计的用户,每年创造数十亿美元的商品买卖业务总额(GMV)。为了方便这些用户快速检索相干商品,工业界提出了一种行之有用的搜索范式,如图 1 所示,具体来说,这种范式包罗几个步调,即语义明确—检索—排序。此中,语义明确是整个体系的底子,确保正确匹配用户意图。然而,由于用户对商品喜欢的表达方式各不类似,他们的查询和商品关键词之间通常存在语义鸿沟。对于长尾查询更是云云,检索体系大概无法提供任何相干商品。比方,具备某种个人表达风俗的用户大概会输入“自做盲盒”如许的长尾查询,假如输入“DIY 盲盒”如许的同义查询,则会得到更多的检索结果。遗憾的是,传统的术语匹配办理方案(如倒排索引)很大概无法将常用的“DIY”与非风俗用语“自做”匹配起来,从而限定了检索结果,严肃影响了用户体验。因此,亟需办理长尾查询的语义鸿沟困难,从而办理电子商务平台“无少结果”的题目。图1. 淘宝搜索引擎团体框架 传统技能告急研究“基于嵌入的检索”范式,即起首将查询和商品映射到一个共同的语义空间,然后利用近似近邻(ANN)方法召回相干商品。然而,检索结果大概难以表明,这严肃限定了其性能。为了加强检索结果的可控性,人们在“查询改写-正确匹配”这一范式上做了一些积极。一方面,一些研究职员试图通过从查询改写会合找到相似术语来“改写”查询,然后利用希罕检索技能来搜索相干商品。固然这些方法可以有用扩展热门查询的语义,但长尾查询没有得到充实优化,因此无法天生相干的改写。 另一方面,天生类方法涉及对<查询,改写>数据举行有监督训练过程,可以加强模子的改写本领,并进一步联合对齐过程来加强度量偏好。固然这些方法部门办理了语义鸿沟题目,但它们通常依靠于小型天生模子,对长尾查询的明确本领有限,大大限定了改写本领。迩来,随着大语言模子技能的发展,一些人将大语言模子用作检索数据加强天生器,但这些方法不举行额外的训练来扩展查询语义。因此,这些方法纵然颠末经心计划的提示,仍会限定查询改写使命的专业化本领,导致其目的与电子商务搜索不符。 1. 团体框架长尾查询改写旨在扩展原始查询语义,以办理语义鸿沟题目,同时确保相干性。为此,如图 2 所示,我们提出了一个三阶段改写框架,包罗:多指令监督微调、离线反馈和目的对齐。 - 起首,通过改写抽样,我们构建了一个基于在线日记的多指令监督微调数据集,该数据集以改写使命为主,并肴杂了质量分类、商品标题推测和头脑链(CoT)使命,以训练专用于改写大语言模子。
- 然后,我们利用第一阶段训练完成大语言模子为每个抽样查询天生多个候选改写。为了得到这些候选改写的偏序关系,我们构建了一个淘宝离线体系,以得到这些改写的搜索结果。搜索结果的质量得分将用于对候选改写举行排序。
- 根据候选改写词的偏序关系,我们利用基于布拉德利-特里(Bradley-Terry)的对比学习来校准这些改写词的天生概率,从而最大限度地进步能得到抱负搜索结果的改写词的概率。
图2 查询改写框架 2. 多指令微调鉴于没有公开的大语言模子是专门为电子商务查询改写而计划的,直接利用通用大语言模子来办理长尾查询语义鸿沟题目很大概会引入禁绝确性和噪音。因此,我们通过网络各种与改写相干的使命来微调大语言模子,从而加强它们明确和改写电商查询的本领。 2.1 查询改写数据集我们从淘宝上一代改写战略中获取改写对从而得到初始改写数据集。具体来说,当用户在淘宝搜索中发起查询时,旧的改写战略会天生一个改写查询列表。我们从中选出排名最靠前的候选作为黄金尺度,构建初始改写数据集。 须要夸大的是,电子商务查询改写差别于其他文本天生使命。在这种环境下,查询和改写之间的语义相似性并不肯定能包管检索到相似的商品集。我们的目的是改写候选所检索到的商品与原始查询之间具有高度相干性。为了实现这一目的,我们通过检索商品相干性对改写数据集举行第一次拒绝采样。 别的,淘宝的上一代改写模子告急缺乏对长尾查询的优化。在开辟新一代改写模子时,我们的目的是保持检索相干性的同时,扩展原始查询语义。这种扩展旨在缓解长尾查询导致“无少结果”的题目。因此,我们在思量检索增量的环境下,再次利用拒绝采样来过滤改写数据。 2.2 辅助使命数据集为了进一步进步大语言模子明确长尾查询的本领,我们网络了三个与查询改写相干度较高的使命数据集。这些使命包罗质量分类、商品标题推测和头脑链。 - 为了处置处罚质量分类使命,我们起首从在线日记中提取查询对。然后对这些查询对举行人工标注,以确定它们是否符合有监督微调规定的数据要求。
- 对于商品标题推测使命,我们选择查询下迩来互动的商品作为参考,形成 <查询、商品标题> 对。
- 至于 CoT 使命,我们利用原始在线查询来为人工评估者构建提示。值得留意的是,这些评估者的使命不光是提供查询改写,以进步查询检索的质量,而且还要分析他们的头脑过程,表明具体修改背后的来由。
上述辅助使命的具体提示计划见表1。这些数据集随后被纳入改写使命,以构建 SFT 阶段的数据集。 表1 辅助使命prompt计划 2.3 监督微调条件语言模子天生文本的过程可视为一种受限自回归抽样战略。给定提示语x及其黄金尺度y,训练目的是最大化条件概率,因此改写模子的训练目的为最小化负对数似然:
3. 离线反馈如今,大多数对齐方法都依靠于人工表明和训练好的嘉奖模子。然而,我们以为这些方法很轻易受到标注数据质量和嘉奖模子训练结果的影响。这通常会导致模子对输出的打分禁绝确,并影响天生模子的学习。为办理这一题目,我们提出了一种基于淘宝搜索引擎的反馈体系。它能提供更正确的改写分数。 我们的反馈体系收到改写哀求时,它会模拟淘宝在线服务的流程,为改写检索相应的商品。根据商品集,我们的体系会为我们提供一个质量分数。值得留意的是,我们告急办理的是正确匹配中长尾查询造成的语义鸿沟题目。因此,我们的改写模块只对检索模块的倒排索引匹配举行操纵,改写检索所思量的商品集只与倒排索引这一起相干。在此,我们提出了衡量倒排索引改写质量的三个分数,即相干性、增量和掷中率:
此中,和为原始查询和其改写,为指示函数,为淘宝相干性函数,用于评估商品标题与查询文本之间的相干性,表现查询-商品对的语义相干性阈值,表现文本的离线检索商品列表。表现文本的离线检索商品集,是淘宝搜索组维护的精良商品集。是用户在搜索场景之外买卖业务过的商品聚集,和表现文本和的离线检索商品集。 我们提出的基于淘宝搜索引擎的反馈体系通过思量相干性、增量和掷中率,提供了更正确的改写分数。这有助于改进对齐过程,确保更好地学习天生模子。 4. 线上目的对齐为了制止通过嘉奖模子引入毛病,我们引入了基于布拉德利-特里模子的偏好品级优化(PRO)。该方法旨在欺压模子学习离线反馈提供的改写偏序关系。根据布拉德利-特里模子,选择战略的概率应与相应的嘉奖成正比。给定偏序关系:,偏好概率可表现为:
PRO将这种成对排序扩展为更一样寻常的列表偏序关系。别的,还引入了一个温度系数,以反映基于嘉奖的排序的告急性。PRO丧失用以下公式表现:
我们在PRO丧失的底子上增长SFT丧失,权重为,以保持模子天生正常输出的本领:
1. 线下实行结果算法团队将BEQUE与CLE-QR、query2doc (Q2D)、BART、Qwen和基于RL的大语言模子等多个基线举行了比力。CLE-QR是淘宝搜索的上一代查询改写器,它基于对比学习为每个查询天生语义表征并检索相干改写。BART是一种基于编码器-解码器布局的强盛预训练天生模子。我们利用在线日记中的<查询,改写>对对其举行微调,以加强其改写电子商务查询的本领。Qwen是一个基于解码器布局的大规模语言模子,包罗70亿个参数。同样,我们利用在线日记中的<查询,改写>对对其举行微调,以加强其改写电子商务查询的本领。别的,我们引入了基于RL的大语言模子,并利用相干性、增量和掷中率作为嘉奖,分别鼓励RL模子与淘宝的离线指标保持划一。通太过析表2中的数据,可以得出以下结论: - 在改写 “中部 ”和 “尾部 ”查询时,天生模子优于辨别模子。
- 与小型模子相比,大语言模子在长尾语义明确本领方面更胜一筹。
- Q2D如许检索加强方法的语义扩展本领有限。
- 强化学习(RL)大概会引入毛病,影响改写大语言模子的结果。
- 差别的离线反馈分数作为嘉奖的作用差别。
表2 线下实行结果 2. 线上实行结果为了评估BEQUE的实际在线表现,我们将其摆设在淘宝搜索上举行了为期14天的在线测试:在此期间,我们记载了淘宝搜索场景中的三个关键指标:GMV、#Trans 和 UV。表3表现,BEQUE 在 GMV、#Trans 和UV方面分别比上一代改写模子CLE-QR高出0.4%、0.34% 和0.33%。这意味着BEQUE为淘宝搜索贡献了数百万GMV。值得留意的是,这里提到的总体性能指的是测试桶中的全部查询。由于我们是离线推理,因此约有 70% 的在线查询没有掷中我们的改写表。纵然在这些环境下,我们的模子仍能带来明显的提升。 别的,对于BEQUE所覆盖(改写)的查询(约占总 PV 的 27%),GMV、#Trans 和UV分别明显增长了 2.96%、1.36% 和 1.22%。这些发现表明,BEQUE能有用地改写查询,并办理语义匹配过程中埋伏的语义鸿沟。别的,BEQUE还显着改善了长尾查询和“无少结果”查询的在线 #Trans 和 UV。别的,由于这一部门所占流量比例较低,我们忽略了该子集的GMV颠簸。这一改进可归功于我们对长尾查询的专门优化。本文所提出的框架BEQUE在第一阶段有监督训练过程中,采取了拒绝采样和辅助使命数据进步了模子在检索增量和相干性方面的性能,也加深了模子对长尾查询的明确。第二和第三阶段的对齐过程有用地迫使模子与淘宝搜索的在线目的保持划一。 图3 线上实行结果
在本文中,我们先容了BEQUE,这是一个专为电子商务查询改写而计划的框架。BEQUE的告急目的是办理语义匹配过程中出现的语义鸿沟,尤其是长尾查询。起首,我们采取拒绝采样和辅助使命肴杂的方法来进步改写数据集的质量。然后,我们利用这一改进后的数据集训练大语言模子,从而进步模子的查询明确本领,实现对电子商务查询的有用改写。利用训练好的大语言模子,我们为每个抽样查询天生多个候选改写。为了在这些候选改写中确定偏序关系,我们创建了一个基于在线淘宝搜索的离线反馈体系。 该反馈体系可从相干性、增量和掷中率等多个角度正确评估候选改写的检索质量。末了,通过联合改写检索质量的偏序关系,我们引入了PRO,使模子的目的与淘宝的目的保持划一。这确保了我们的方法可以或许天生高质量的改写结果。通过多次实行,我们证明白我们的方法在改善离线指标方面的有用性。别的,在线 A/B 实行也证明白淘宝搜索的 GMV、#Trans 和UV有了明显进步,尤其是在长尾查询方面。 作者:才达、如鸣、丹鸥、元涵 泉源-微信公众号:淘天团体算法技能
出处:https://mp.weixin.qq.com/s/DfHWs_773gErF6o0y9cw9Q 免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |