淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区

标题: 重磅!“AI界拼多多”再发力,国产大模子DeepSeek-V3开源后刷屏,总练习成 [打印本页]

作者: 巫溪小哥    时间: 2025-1-7 20:57
标题: 重磅!“AI界拼多多”再发力,国产大模子DeepSeek-V3开源后刷屏,总练习成

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)就在本日,向来被硅谷视为“来自东方机密力气”的中国大模子创业公司 DeepSeek 再次静静惊艳了国表里的 AI 技能圈,其重磅发布了一个全新的超大规模模子——DeepSeek-V3
这个新模子拥有 6710 亿个参数,但采取了 MOE(混淆专家)架构,能根据任务需求激活特定参数,每处理惩罚一个词元激活 370 亿参数,从而实现高效又准确的任务处理惩罚。
这一次 DeepSeek-V3 的发布令业界奋发,不光由于它是开源模子,更由于测试结果体现,它已逾越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模子,乃至在性能上迫近 Anthropic 和 OpenAI 等封闭模子,大大缩小了开源和闭源 AI 之间的差距。
可谓是一个“低调的气力派”选手再次搅动了 AI 大模子的风云,当前这款模子可以通过Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)获取,但须要服从公司的答应协议。




开辟本钱只有 557 万美元的 DeepSeek-V3,有哪些亮点?
和前代 DeepSeek-V2 一样,新发布的超大模子仍然基于多头潜伏注意力(MLA)和 DeepSeekMoE 架构。这种操持确保模子在练习和推理时保持高效,通过专用和共享的“专家”(模子中的独立小型神经网络)机制,每次处理惩罚一个词元时激活 6710 亿参数中的 370 亿个。

DeepSeek-V3 架构图

除了一连底子架构包管强大性能外,DeepSeek-V3 还引入了两项创新:
这一创新不光提高了练习服从,还让模子的天生速率提拔了三倍,从 20 TPS 大幅进步至 60 TPS,每秒能天生 60 个 token

“在预练习阶段,我们使用了 14.8 万亿高质量、多样化的文本对 DeepSeek-V3 举行了练习……随后,分两阶段对其上下文长度举行了扩展。”DeepSeek 在技能论文中提到,“第一阶段将上下文长度扩展到 32K,第二阶段进一步扩展到 128K。在此底子上,我们对 DeepSeek-V3 举行了后期练习,包罗监视微调(SFT)和基于强化学习(RL)的练习,使模子更加符合人类偏好并开释潜力。在后期练习中,我们引入了 DeepSeekR1 系列模子的推理本领,同时经心均衡了模子的准确性和生发展度。”

论文地点:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
值得一提的是,在练习过程中,DeepSeek 使用了多种硬件和算法优化步伐,比方 FP8 混淆精度练习框架和 DualPipe 流水线并行算法,从而大幅低落了练习本钱。
总的来说,在预练习阶段,DeepSeek-V3 每处理惩罚 1 万亿个词元仅需 18 万小时的 H800 GPU 时间,使用配备 2048 块 H800 GPU 的集群,只需 3.7 天即可完成。整个预练习耗时不到两个月,总计使用 266.4 万 GPU 小时。别的,上下文长度扩展泯灭 11.9 万 GPU 小时,后期练习(如监视微调和强化学习)泯灭 5000 GPU 小时,总练习时长为 278.8 万 GPU 小时。
按每 GPU 小时 2 美元的代价盘算,DeepSeek-V3 的团体练习本钱约为 557.6 万美元。这一数字仅涵盖正式练习阶段的泯灭,不包罗在模子架构、算法操持或数据处理惩罚上的前期研究和溶解实验费用,但它远低于通常练习大型语言模子所需的数亿美元。比方,Llama-3.1 的练习本钱估计高出 5 亿美元。




如今最强的开源模子
只管练习本钱较低,但 DeepSeek-V3 已经成为市场上最强的开源模子之一。
DeepSeek 对 DeepSeek-V3 模子举行了多项性能测试。在知识范畴,基于教诲类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 体现精良,分别取得了 88.5、75.9 和 59.1 的高分,逾越了全部其他开源模子,并在性能上靠近封闭模子如 GPT-4o 和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一范畴大幅缩小了开源模子与封闭模子之间的差距。
其次,在毕竟性知识测试中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 两个基准上领先于其他开源模子。在英文毕竟知识(SimpleQA)测试中虽稍逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文毕竟知识(中文 SimpleQA)中体现更强。

其次在代码、数学与推理范畴:
(1) 在数学相干基准测试中,DeepSeek-V3 在全部非长链式头脑(non-long-CoT)的开源和封闭模子中体现最为精彩。在特定基准如 MATH-500 中,它乃至高出了 OpenAI o1-preview。
(2) 在编程相干任务中,DeepSeek-V3 在编程角逐基准(如LiveCodeBench)上体现最佳。对于工程相干任务,只管 DeepSeek-V3 略逊于 Claude-Sonnet-3.5,但仍然明显领先于其他全部模子,体现出其在各类技能基准上的强劲竞争力。
团体而言,DeepSeek-V3 测试结果体现它显着逾越了许多领先的开源模子,包罗 Llama-3.1-405B 和 Qwen 2.5-72B。在大多数测试中,乃至连封闭的 GPT-4o 也被它击败。不外,在专注于英语的 SimpleQA 和 FRAMES 测试中,OpenAI 的 GPT-4o 依然领先,分别取得了 38.2 和 80.5 的分数(相比之下,DeepSeek-V3 的分数是 24.9 和 73.3)。在中文和数学类的测试中,DeepSeek-V3 结果领先于全部对手。在 Math-500 测试中,它得到了 90.2 的高分,远超 Qwen 的 80 分这一次优结果。

不外,Anthropic 的 Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 等测试中的得分更高,也给 DeepSeek-V3 这类开源 AI 模子的发展留下肯定的空间。



“AI 界拼多多”
毋庸置疑,DeepSeek-V3 的发布再次证实,开源模子正敏捷缩小与封闭模子之间的差距,在多项任务上实现了险些相称的性能。这对行业发展未尝不是一件功德,不光低落了某个 AI 巨头把持市场的大概性,还为企业提供了更多选择和机动性。
在定价方面,回顾本年 5 月,DeepSeek 发布第二代 MoE 大模子 DeepSeek-V2 时,以与 GPT-4 Turbo 媲美的性能和仅为 GPT-4 百分之一的代价震撼业界,这也让 DeepSeek 劳绩了“AI 界拼多多”、“大模子代价屠夫”等称呼。
这一次,DeepSeek 也没有让众人扫兴,DeepSeek-V3 模子 API 服务定价为每百万输入 tokens 0.5 元(缓存掷中)/ 2 元(缓存未掷中),每百万输出 tokens 8 元。
同时,DeepSeek 公布为新模子设置长达 45 天的优惠代价体验期:克日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务代价为每百万输入 tokens 0.1 元(缓存掷中)/ 1 元(缓存未掷中),每百万输出 tokens 2 元。




令技能圈为之奋发的 DeepSeek-V3
这让许多人感到惊喜。时下 DeepSeek-V3 已在国表里各大科技板块刷屏,同时引发了不少 AI 大佬的关注。
OpenAI 前研究科学家、特斯拉前人工智能主管、AI 大神 Andrej Karpathy 评价道:
“DeepSeek(中国一家AI公司)本日再次显现出令人赞叹的气力,其开源的顶尖大语言模子以极低的预算完成练习(2048 块 GPU 练习2个月,总本钱仅为 600 万美元)。
对比之下,通常这种本领程度的模子须要靠近 16K GPU 的集群,而如今一些正在摆设的集群规模已靠近 10 万块 GPU。比方,Llama 3 405B 泯灭了 3080 万 GPU 小时,而 DeepSeek-V3 仅泯灭 280 万 GPU 小时(算力需求镌汰约 11 倍),但体现似乎更为强劲。如果该模子在各种测试中(如 LLM arena 排行榜测试,如今仍在举行中,我的频频简单测试结果不错)体现精良,那将是资源受限环境下研究与工程本领的一次极为令人印象深刻的展示。
这是否意味着练习前沿级 LLM 不再须要大规模 GPU 集群?并不是。但关键在于怎样高效使用现有资源。这次结果表明,在数据和算法方面仍有大量潜力可以发掘。
技能陈诉也非常具体而精彩,值得一读。”

AI 独角兽 Scale AI CEO Alexander Wang 转发 DeepSeek 的官方推文并表现:
中国领先的大语言模子实验室 DeepSeek 选择在圣诞节发布其最新的 V3 模子,意义深远。
这反映了一个令人深思的毕竟:中国科技的“暴虐原形”:当美国苏息时,中国在积极工作,并以更低的本钱、更快的速率和更强的气力实现追赶。

毕竟上,DeepSeek 的乐成并非偶尔。这家由中国着名量化私募巨头幻方量化于 2023 年创建的公司,在创建仅半年后就推出了第一代大模子 DeepSeek Coder,这一模子不光免费商用,还完全开源。
不外,在其时的百模大战中,DeepSeek 发布的新模子大概并未引起太多关注。然而,令人意想不到的是,在厥后各大科技巨头掀起大模子代价战之前,DeepSeek 已率先突破通例,大胆掀翻了大模子代价的“桌子”,吸引了浩繁眼光。
深挖之后,众人才发现,这家较为低调 AI 初创公司着实早深耕 AI 范畴多年且极具前瞻性,早在 2019 年,幻方量化就投资了 2 亿元自主研发深度学习练习平台“萤火一号”,搭载了 1100 块 GPU,到了 2021 年幻方量化对“萤火二号”投入增长到 10 亿元,且搭载了约 1 万张英伟达 A100 显卡,而在其时,国内拥有高出 1 万枚 GPU 的企业屈指可数,不高出 5 家。
早期的“先见之明”,如今其上风渐渐凸显。对此,贾扬清也在交际媒体 X 分享了曾经与 DeepSeek 互换的一些往事:“2019 年,我曾与 DeepSeek 团队举行过一次互换,盼望向他们保举一套 AI 云办理方案。其时,我试图向他们通报以下几个观点:
在 2019 年,当大多数人仍专注于传统云业务时,我以为这些观点相对新颖,并须要花些力气才气说服市场中的许多玩家。
然而,DeepSeek 团队友爱地告诉我,他们多年来不绝在按这种方式运作。毕竟上,他们还盼望我能资助他们向大学研究实验室捐赠盘算资源,让这些已有的算力可以大概被更好地使用,无需附加条件,也不收取任何费用。
终极,我也在学术捐赠项目上为他们提供了一些小小的资助。
从某种意义上说,DeepSeek 团队取得的光辉成绩,正是根植于多年来积聚的专业履历,而这些履历在其时被许多人忽视了。

别的,贾扬清还表现,「关于 DeepSeek 模子的讨论中,有许多潜伏的“中国产物”标签,以及与中美关系或 GPU 算力的隐性关联。在我看来,DeepSeek 的乐成与这些因素关系不大。这更像是简单的聪明与务实精力在发挥作用:在有限的算力和人力条件下,通过聪明的研究实现最佳结果。
如今,DeepSeek-V3的代码已通过 MIT 答应证在 GitHub(https://github.com/deepseek-ai/DeepSeek-V3)上公开,模子则以公司自有的答应协议提供。同时,也可以在 Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)体验。
感爱好的小同伴可以查阅技能论文:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
参考:
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ
https://x.com/jiayq/status/1872409958907810281
https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
[color=rgba(0, 0, 0, 0.9)]
勿再“浮沙筑高台”

用踏实的 C++ 技能为你的职业发展奠基坚固底子

到场「C++ 大家系列佳构课」

带你踏上一条通往技能顶峰的学习之旅!



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
作者: rDdvFQub    时间: 7 天前
66666666666666
作者: waterfall1982    时间: 6 天前
来学习下,每天学习才能不断地进步 开好淘宝店
作者: azhong983311    时间: 前天 17:45
来论坛来学习淘宝知识的




欢迎光临 淘宝卖家开店运营论坛_淘宝卖家经验交流学习社区 (https://tao92.com/) Powered by Discuz! X3.3