淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区

标题: 27个大模子混战电商范畴,DeepSeek-R1&V3还是最强 [打印本页]

作者: 运营笑笑    时间: 2025-3-18 00:12
标题: 27个大模子混战电商范畴,DeepSeek-R1&V3还是最强
淘天未来生存实验室 投稿
量子位 | 公众号 QbitAI
全面评估大模子电商范畴本事,首个聚焦电商底子概念的可扩展问答基准来了!
ChineseEcomQA,来自淘天团体。
此前,大模子常因天生毕竟性错误信息而受限,而传统基准又难以分身电商任务的多样性与范畴特殊性。
但随着大模子在电商范畴的广泛应用,怎样精准评估其对专业范畴知识的把握成为关键寻衅。
为此,ChineseEcomQA针对性举行了3大焦点筹划:

ChineseEcomQA构建流程

从电子商务根本元素(用户活动、商品信息等)出发,团队总结出电子商务概念的紧张范例。
终极界说了从底子概念到高级概念的10个子概念(详细详见论文):
行业分类、行业概念、种别概念、品牌概念、属性概念、口语概念、意图概念、批评概念、相干性概念、个性化概念。

然后,研究职员接纳肴杂的数据集构建过程,联合LLM验证、RAG验证和严格的人工标注,确保基准符合三个焦点特性:
详细来说,构建ChineseEcomQA紧张分为自动化问答对天生和质量验证两个阶段。
第一阶段,问答对天生。
研究者网络了大量知识丰富且涵盖各种相干概念的电子商务语料库。
然后,提示大模子(GPT-4o)根据给定的内容老实地天生问答对;对于比力开放的题目,要求大模子同时提供非常杂乱和困难的候选答案。
从而自动化地构建出大量问答对作为初始评测集。

第二阶段,质量验证。
我们开发了一个多轮自动化流程对天生的问答对举行验证,重新天生或过滤不符合标准的题目。
详细包罗大模子验证、电子商务通用知识验证、电子商务专业知识验证、电子商务毕竟性验证、难度筛选、人工验证。
颠末多重严格筛选,终极得到匀称覆盖10大类电商子概念的1800条高质量问答对作为终版数据集。

DeepSeek-R1和V3表现最佳

评估了11个闭源模子和16个开源模子,得出如下排名榜:

(注:对于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分别代表“行业分类”“行业概念”“种别概念”“品牌概念”“属性概念”“口语概念”“意图概念”“批评概念”“相干性概念”和“个性化概念”)
总的来看,DeepSeek-R1和DeepSeek-V3是表现最好的模子,展示了强大的底子模子(推理模子)在电子商务范畴的巨大潜力。
别的,研究团队对主流模子表现分析并得出了以下发现:
同时,团队还在ChineseEcomQA上探索了模子校准、RAG、推理模子头脑过程等热门研究课题(详细详见论文)。
模子每每对复兴“过于自大”

一个完善校准的模子应该表现出与其猜测正确度同等的置信度。
ChineseEcomQA团队通过提示模子在复兴题目的同时给出其对复兴内容的置信度(范围0到100),探索模子的毕竟正确性与置信度之间的关系。
效果表现,o1-preview表现出最佳对齐性能,其次是o1-mini。
然而,大多数模子始终低于完善对齐线,表明模子广泛存在过分自大的趋势。
这凸显了改进大型语言模子校准以减轻过分自大产生错误相应的巨大空间。

RAG还是快速提拔模子本事的捷径

研究过程中,团队探究了RAG计谋在ChineseEcomQA数据集上增强LLM范畴知识的有用性。
详细来说,研究者在种别概念和品牌概念上的设置重现了一个RAG体系。
效果表现,全部模子都通过RAG都得到了显着提拔。研究职员总结出三个详细的结论。
第一,对于小型LLM,引入RAG信息可以显着进步评估指标的绝对值。
比方,Qwen2.5-14B实现了27.9%的改进。
第二,对于大型LLM,RAG也可以实现显着的相对改进。
比方,DeepSeek-V3的匀称相对改进到达了10.44%(正确率从77.4进步到85.5)。
第三,在RAG设置下,模子之间的性能仍旧遵照缩放规律,但差距灵敏缩小。
比方,Deepseek-V3和Qwen2.5-72B之间的正确率差别从12.1%缩小到 4%。
总之,RAG还是增强LLM电子商务知识的有用方法。

鉴戒“头脑链中的毕竟性错误累积”

在紧张效果中,Deepseek-R1取得了最佳效果,充实展示了Reasoning LLM在开放范畴中的潜力。
然而,在从Deepseek-R1蒸馏出的Qwen系列模子上,正确率显着低于预期。
由于开源Reasoning LLM显现了它们的头脑过程,研究者进一步观察其错误的缘故原由,并将推理模子的头脑过程分为以下四种范例:

总体而言,Type A和Type B是通过扩大test-time盘算量得到的推理本事;Type C和Type D是肤浅的自我反思,导致终极答案不正确。
由于Deepseek-R1强大的buase模子本事表现出更好的泛化本事。
相比之下,在某些特定范畴蒸馏的DeepSeek-R1-Distill-Qwen系列好像在肤浅的自我反思方面碰到了困难。中心推理步调中毕竟错误的积聚增长了团体错误率。
对于较小的推理LLM,开放范畴的推理本事不能直接通过数理逻辑本事来泛化,须要找到更好的方法来进步它们的性能。
One More Thing

该论文焦点作者包罗陈海斌,吕康滔,袁愈锦,苏文博,研究团队来自淘天团体算法技能 - 未来生存实验室。
该实验室聚焦大模子、多模态等AI技能方向,致力于打造大模子相干底子算法、模子本事和各类AI Native应用,引领 AI 在生存消耗范畴的技能创新。
淘天团体算法技能 - 未来生存实验室团队将一连更新和维护数据集及评测榜单,欢迎广大研究者利用我们的评测集举行实验和研究~
论文链接:
https://arxiv.org/abs/2502.20196
项目主页:
https://openstellarteam.github.io/ChineseEcomQA/
代码堆栈:
https://github.com/OpenStellarTeam/ChineseEcomQA
数据集下载:
https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
作者: rexpan    时间: 2025-3-18 03:59
来学习下,每天学习才能不断地进步 开好淘宝店
作者: zousibing    时间: 2025-3-18 04:45
谢谢老板的帖子
作者: zhouguoqiang    时间: 2025-3-18 04:47
楼主很优秀啊
作者: qXwqtnuK    时间: 2025-3-18 04:48
很不错 谢谢分享
作者: 枫叶小子    时间: 2025-3-18 04:48
写的不错 谢谢分享
作者: 469348394    时间: 2025-3-22 11:01
6666 不错好文章
作者: yifeichongtian    时间: 2025-3-22 23:18
很好学习了
作者: cody86    时间: 4 天前
谢谢楼主分享




欢迎光临 淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区 (https://tao92.com/) Powered by Discuz! X3.3