淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区
标题:
“AI界的拼多多”DeepSeek推出新款大模子,水平怎样?
[打印本页]
作者:
秋天落叶7521
时间:
2025-1-31 21:48
标题:
“AI界的拼多多”DeepSeek推出新款大模子,水平怎样?
开源和闭源AI的差距,进一步被这家中国公司缩小了。
克日,被称为“AI界拼多多”的中国人工智能初创公司深度求索(DeepSeek)发布了全新大模子DeepSeek-V3(下称V3)并同步开源。该模子在Aider多语言编程测试排行榜中,已逾越Anthropic的Claude 3.5 Sonnet大模子,仅次于榜首的OpenAI o1大模子。
开源No.1,多方面追平闭源大模子
DeepSeek是着名私募巨头幻方量化旗下的人工智能公司,根据DeepSeek公布的测试结果,其运行了多项基准测试来比力性能,V3模子已显着优于包罗Meta公司的Llama-3.1-405B和阿里云的Qwen 2.5-72B等一众领先开源模子。在大多数基准测试中,它以致部门逾越了OpenAI的闭源模子GPT-4o。
Deepseek-V3在多方面逾越、追平各种开源、闭源大模子。Deepseek
起首是百科知识上,V3的知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下称V2.5)明显提拔,靠近当前体现最好的模子 Claude-3.5-Sonnet-1022。长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,V3 匀称体现逾越其他模子。
别的,V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模子,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
值得留意的是,V3在中文和数学相干基准测试中体现尤为突出。
在美国数学比赛(AIME 2024, MATH)和天下高中数学联赛(CNMO 2024)上,V3大幅凌驾了全部开源闭源模子。在中文本领上,V3 与 Qwen2.5-72B 在教导类测评 C-Eval 和代词消歧等评测集上体现相近,但在究竟知识 C-SimpleQA 上更为领先。
练习资本极低
按照美媒Venture Beat的说法,固然V3已成为市场上最强盛的开源模子,但其练习资本却非常非常低。
通过在上一代DeepSeek-V2上的乐成验证,V3相沿了可以大幅低落显存占用的MLA(多头潜留意)和DeepSeekMoE(混淆专家)架构,其具有6710亿参数,每次推理激活370亿参数,这种方法确保了高效的练习及推理。在练习阶段,DeepSeek使用了多种硬件和算法优化,包罗FP8混淆精度练习框架和用于管道并行的DualPipe算法,以低落练习资本。
V3根本架构,DeepSeek创新的MLA被用于高效推理,DeepSeekMoE则用于经济练习。DeepSeek论文
DeepSeek声称,V3 实现了极高的练习服从。在约278.8万个英伟达 H800 GPU小时内完成了V3的整个练习,假设GPU的小时租金为2美元,总资本就是约为557万美元。这远低于通常用于预练习大语言模子动辄上亿美元的资本,好比Llama-3.1的预练习资本估计就凌驾5亿美元。
DeepSeek还通过算法和工程上的创新,使V3的天生吐字速率从20TPS大幅进步至60TPS,相比V2.5模子实现了3倍的提拔,在处置惩罚多模态数据和长文本时体现突出。而随着性能更强、速率更快的V3更新上线,DeepSeek的模子API服务订价也调解为每百万输入tokens 0.5元(缓存掷中)/2元(缓存未掷中),每百万输出tokens 8元。
量化基金转型人工智能
公开资料体现,在DeepSeek背后是量化私募巨头幻方(High-Flyer Quant),也是大厂外唯逐一家储备上万张英伟达 A100芯片的公司。幻方创建于2008年,总部位于中国杭州,专注于使用数学、统计学和盘算机技能举行金融市场的量化分析和生意业务。
自2023年四序度以来,A股市场不停下行,而使用数学模子和盘算机步调等技能本事举行投资决议的量化基金曾被作为“罪魁罪魁”受到舆论的打击,这也让幻方旗下基金体现不停掉队于沪深300指数4个百分点。
不外,随着本年5月DeepSeek-V2发布,幻方量化却乐成转型为人工智能先驱,其超低代价以致引发了国内大模子的代价战,DeepSeek也被敏捷冠以“AI界拼多多”之称。这反映出百度和阿里巴巴等科技巨头,只管在天生式人工智能范畴已处于领先职位,但仍必要面对着来自新玩家的猛烈竞争。
幻方首创人梁文锋此前曾回应称,DeepSeek订价原则就是不贴钱,但也不赚取暴利。只是让他也没想到的是,DeepSeek的订价却让各大厂商纷纷贬价,然而DeepSeek自身反而却是有利润的。
“字节是第一个跟进的,其旗舰模子降到和我们一样的代价,然后触发了别的大厂纷纷贬价”,梁文锋表明说,“由于大厂的模子资本比DeepSeek高很多,以是DeepSeek没想到会有人亏钱做这件事,末了就酿成了互联网期间的烧钱补贴的逻辑。”
梁文锋以为,更多的投入并不肯定产生更多的创新,否则大厂可以把全部的创新包揽了。
本文系观察者网独家稿件,未经授权,不得转载。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
作者:
yewenbin
时间:
2025-2-4 19:30
66666666666666
作者:
八面风
时间:
2025-2-5 00:26
来学习下,每天学习才能不断地进步 开好淘宝店
作者:
jmtt111
时间:
2025-2-5 06:00
谢谢老板的帖子
作者:
fuck321321
时间:
2025-2-5 06:00
厉害学习到了
作者:
liyiyi
时间:
2025-2-17 02:42
很不错 谢谢分享
作者:
paperrat
时间:
2025-2-17 08:14
过来学习啦 哈哈
作者:
philon
时间:
2025-2-20 17:26
看看学习下 支持个
作者:
any941
时间:
2025-2-22 10:14
支持楼主 来学习一下
作者:
0cd
时间:
2025-2-26 14:07
6666 不错好文章
作者:
byooshuju
时间:
2025-3-1 04:47
来论坛来学习淘宝知识的
作者:
ffafff
时间:
2025-3-1 08:41
楼主很优秀啊
作者:
光头人1
时间:
2025-3-3 19:37
多谢楼主的分享
作者:
熊猫大哥
时间:
2025-3-5 21:08
文章很好,学习了楼主
作者:
ddr400
时间:
2025-3-6 19:09
不知道实力运用这个方法会怎么样
作者:
sweedoo
时间:
2025-3-9 23:07
学习到了 赶快利用一下去
作者:
adsads
时间:
2025-3-14 14:45
谢谢楼主分享
作者:
louning
时间:
2025-3-17 07:58
写的不错 谢谢分享
作者:
wuguilin
时间:
2025-3-21 03:10
很好学习了
欢迎光临 淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区 (https://tao92.com/)
Powered by Discuz! X3.3