在本文中,我们提出的BEQUE可以消除长尾查询的语义鸿沟。具体来说,BEQUE包罗三个阶段:多指令监督微调、离线反馈和目的对齐。我们起首基于拒绝采样和辅助使命肴杂构建一个查询改写数据集,以有监督方式微调我们的大语言模子。随后,利用该大语言模子,我们采取波束搜索(beam search)天生多个候选改写,并将其输入到淘宝离线体系以得到候选改写的偏序关系。随后,我们引入了一种对比学习方法以突出改写之间的区别,并使模子训练目的与淘宝网的线上目的保持划一。离线实行证明白我们的方法在弥合语义鸿沟方面的有用性。
图1. 淘宝搜索引擎团体框架
传统技能告急研究“基于嵌入的检索”范式,即起首将查询和商品映射到一个共同的语义空间,然后利用近似近邻(ANN)方法召回相干商品。然而,检索结果大概难以表明,这严肃限定了其性能。为了加强检索结果的可控性,人们在“查询改写-正确匹配”这一范式上做了一些积极。一方面,一些研究职员试图通过从查询改写会合找到相似术语来“改写”查询,然后利用希罕检索技能来搜索相干商品。固然这些方法可以有用扩展热门查询的语义,但长尾查询没有得到充实优化,因此无法天生相干的改写。
另一方面,天生类方法涉及对<查询,改写>数据举行有监督训练过程,可以加强模子的改写本领,并进一步联合对齐过程来加强度量偏好。固然这些方法部门办理了语义鸿沟题目,但它们通常依靠于小型天生模子,对长尾查询的明确本领有限,大大限定了改写本领。迩来,随着大语言模子技能的发展,一些人将大语言模子用作检索数据加强天生器,但这些方法不举行额外的训练来扩展查询语义。因此,这些方法纵然颠末经心计划的提示,仍会限定查询改写使命的专业化本领,导致其目的与电子商务搜索不符。
长尾查询改写旨在扩展原始查询语义,以办理语义鸿沟题目,同时确保相干性。为此,如图 2 所示,我们提出了一个三阶段改写框架,包罗:多指令监督微调、离线反馈和目的对齐。
图2 查询改写框架
鉴于没有公开的大语言模子是专门为电子商务查询改写而计划的,直接利用通用大语言模子来办理长尾查询语义鸿沟题目很大概会引入禁绝确性和噪音。因此,我们通过网络各种与改写相干的使命来微调大语言模子,从而加强它们明确和改写电商查询的本领。
我们从淘宝上一代改写战略中获取改写对从而得到初始改写数据集。具体来说,当用户在淘宝搜索中发起查询时,旧的改写战略会天生一个改写查询列表。我们从中选出排名最靠前的候选作为黄金尺度,构建初始改写数据集。
须要夸大的是,电子商务查询改写差别于其他文本天生使命。在这种环境下,查询和改写之间的语义相似性并不肯定能包管检索到相似的商品集。我们的目的是改写候选所检索到的商品与原始查询之间具有高度相干性。为了实现这一目的,我们通过检索商品相干性对改写数据集举行第一次拒绝采样。
别的,淘宝的上一代改写模子告急缺乏对长尾查询的优化。在开辟新一代改写模子时,我们的目的是保持检索相干性的同时,扩展原始查询语义。这种扩展旨在缓解长尾查询导致“无少结果”的题目。因此,我们在思量检索增量的环境下,再次利用拒绝采样来过滤改写数据。
为了进一步进步大语言模子明确长尾查询的本领,我们网络了三个与查询改写相干度较高的使命数据集。这些使命包罗质量分类、商品标题推测和头脑链。
上述辅助使命的具体提示计划见表1。这些数据集随后被纳入改写使命,以构建 SFT 阶段的数据集。
表1 辅助使命prompt计划
条件语言模子天生文本的过程可视为一种受限自回归抽样战略。给定提示语x及其黄金尺度y,训练目的是最大化条件概率,因此改写模子的训练目的为最小化负对数似然:
如今,大多数对齐方法都依靠于人工表明和训练好的嘉奖模子。然而,我们以为这些方法很轻易受到标注数据质量和嘉奖模子训练结果的影响。这通常会导致模子对输出的打分禁绝确,并影响天生模子的学习。为办理这一题目,我们提出了一种基于淘宝搜索引擎的反馈体系。它能提供更正确的改写分数。
我们的反馈体系收到改写哀求时,它会模拟淘宝在线服务的流程,为改写检索相应的商品。根据商品集,我们的体系会为我们提供一个质量分数。值得留意的是,我们告急办理的是正确匹配中长尾查询造成的语义鸿沟题目。因此,我们的改写模块只对检索模块的倒排索引匹配举行操纵,改写检索所思量的商品集只与倒排索引这一起相干。在此,我们提出了衡量倒排索引改写质量的三个分数,即相干性、增量和掷中率:
此中,和为原始查询和其改写,为指示函数,为淘宝相干性函数,用于评估商品标题与查询文本之间的相干性,表现查询-商品对的语义相干性阈值,表现文本的离线检索商品列表。表现文本的离线检索商品集,是淘宝搜索组维护的精良商品集。是用户在搜索场景之外买卖业务过的商品聚集,和表现文本和的离线检索商品集。
我们提出的基于淘宝搜索引擎的反馈体系通过思量相干性、增量和掷中率,提供了更正确的改写分数。这有助于改进对齐过程,确保更好地学习天生模子。
为了制止通过嘉奖模子引入毛病,我们引入了基于布拉德利-特里模子的偏好品级优化(PRO)。该方法旨在欺压模子学习离线反馈提供的改写偏序关系。根据布拉德利-特里模子,选择战略的概率应与相应的嘉奖成正比。给定偏序关系:,偏好概率可表现为:
PRO将这种成对排序扩展为更一样寻常的列表偏序关系。别的,还引入了一个温度系数,以反映基于嘉奖的排序的告急性。PRO丧失用以下公式表现:
我们在PRO丧失的底子上增长SFT丧失,权重为,以保持模子天生正常输出的本领:
算法团队将BEQUE与CLE-QR、query2doc (Q2D)、BART、Qwen和基于RL的大语言模子等多个基线举行了比力。CLE-QR是淘宝搜索的上一代查询改写器,它基于对比学习为每个查询天生语义表征并检索相干改写。BART是一种基于编码器-解码器布局的强盛预训练天生模子。我们利用在线日记中的<查询,改写>对对其举行微调,以加强其改写电子商务查询的本领。Qwen是一个基于解码器布局的大规模语言模子,包罗70亿个参数。同样,我们利用在线日记中的<查询,改写>对对其举行微调,以加强其改写电子商务查询的本领。别的,我们引入了基于RL的大语言模子,并利用相干性、增量和掷中率作为嘉奖,分别鼓励RL模子与淘宝的离线指标保持划一。通太过析表2中的数据,可以得出以下结论:
表2 线下实行结果
为了评估BEQUE的实际在线表现,我们将其摆设在淘宝搜索上举行了为期14天的在线测试:在此期间,我们记载了淘宝搜索场景中的三个关键指标:GMV、#Trans 和 UV。表3表现,BEQUE 在 GMV、#Trans 和UV方面分别比上一代改写模子CLE-QR高出0.4%、0.34% 和0.33%。这意味着BEQUE为淘宝搜索贡献了数百万GMV。值得留意的是,这里提到的总体性能指的是测试桶中的全部查询。由于我们是离线推理,因此约有 70% 的在线查询没有掷中我们的改写表。纵然在这些环境下,我们的模子仍能带来明显的提升。
别的,对于BEQUE所覆盖(改写)的查询(约占总 PV 的 27%),GMV、#Trans 和UV分别明显增长了 2.96%、1.36% 和 1.22%。这些发现表明,BEQUE能有用地改写查询,并办理语义匹配过程中埋伏的语义鸿沟。别的,BEQUE还显着改善了长尾查询和“无少结果”查询的在线 #Trans 和 UV。别的,由于这一部门所占流量比例较低,我们忽略了该子集的GMV颠簸。这一改进可归功于我们对长尾查询的专门优化。本文所提出的框架BEQUE在第一阶段有监督训练过程中,采取了拒绝采样和辅助使命数据进步了模子在检索增量和相干性方面的性能,也加深了模子对长尾查询的明确。第二和第三阶段的对齐过程有用地迫使模子与淘宝搜索的在线目的保持划一。
图3 线上实行结果
在本文中,我们先容了BEQUE,这是一个专为电子商务查询改写而计划的框架。BEQUE的告急目的是办理语义匹配过程中出现的语义鸿沟,尤其是长尾查询。起首,我们采取拒绝采样和辅助使命肴杂的方法来进步改写数据集的质量。然后,我们利用这一改进后的数据集训练大语言模子,从而进步模子的查询明确本领,实现对电子商务查询的有用改写。利用训练好的大语言模子,我们为每个抽样查询天生多个候选改写。为了在这些候选改写中确定偏序关系,我们创建了一个基于在线淘宝搜索的离线反馈体系。
该反馈体系可从相干性、增量和掷中率等多个角度正确评估候选改写的检索质量。末了,通过联合改写检索质量的偏序关系,我们引入了PRO,使模子的目的与淘宝的目的保持划一。这确保了我们的方法可以或许天生高质量的改写结果。通过多次实行,我们证明白我们的方法在改善离线指标方面的有用性。别的,在线 A/B 实行也证明白淘宝搜索的 GMV、#Trans 和UV有了明显进步,尤其是在长尾查询方面。
作者:才达、如鸣、丹鸥、元涵
泉源-微信公众号:淘天团体算法技能
出处:https://mp.weixin.qq.com/s/DfHWs_773gErF6o0y9cw9Q
欢迎光临 淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区 (https://tao92.com/) | Powered by Discuz! X3.3 |