深度求索发布新一代开源大模型DeepSeek-V4 推理成本降至闭源模型数十分之一

打印派   2026-04-24 12:45:16

历经15个月的等待与多次延期,杭州人工智能初创公司深度求索(DeepSeek)终于在4月24日发布了新一代旗舰大模型DeepSeek-V4的预览版,并同步开源。该系列包含Pro和Flash两个版本,均原生支持100万token上下文窗口,在Agent能力、世界知识和推理性能方面实现了国内与开源领域的领先。

参数与架构:Pro与Flash双版本,百万上下文成标配

据官方介绍,DeepSeek-V4系列采用混合专家(MoE)架构。其中,V4-Pro总参数达1.6万亿,激活参数约490亿;V4-Flash总参数为2840亿,激活参数约130亿。两款模型均默认支持百万token上下文,这意味着用户可以一次性将整本长篇小说、完整代码仓库或数月会议记录交给模型处理。

支撑这一能力的核心技术是DeepSeek自研的全新注意力机制——在token维度进行压缩,并配合DSA稀疏注意力技术,大幅降低了对计算和显存的需求。实测数据显示,在百万上下文设置下,V4-Pro的单token推理浮点运算量仅为前代V3.2的27%,KV缓存占用仅为其10%;V4-Flash更是分别压缩至10%和7%。

DeepSeek在官方技术报告中坦承,V4的能力水平仍落后于GPT-5.4和Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型3至6个月。业界普遍将其解读为一次“基础设施级”的发布——重点是重构长上下文成本,为下一阶段的test-time scaling和长程智能体任务铺路,而非能力上的跨越式升级。

深度求索发布新一代开源大模型DeepSeek-V4 推理成本降至闭源模型数十分之一

性能表现:代码能力领先,逼近顶级闭源模型

在具体评测数据方面,V4-Pro在多项基准测试中表现抢眼。知识推理类测试中,该模型在Apex Shortlist(90.2%)和Codeforces(Rating 3206)两项任务上均位列榜首。智能体能力方面,四款主流模型在SWE Verified任务上均为80.6%,但DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)两项复杂工具调用场景下表现突出。

DeepSeek表示,V4-Pro的Agent能力相比前代显著增强,“使用体验优于Anthropic的Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但与Opus 4.6思考模式仍有一定差距”。在数学、STEM和竞赛代码领域,V4-Pro超越所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

V4-Flash则定位为经济型模型,推理能力接近Pro版本,但世界知识储备稍逊。在简单Agent任务上与Pro旗鼓相当,高难度任务则仍有差距。API定价延续了DeepSeek一贯的性价比策略——V4-Pro每百万token输入低至1元(缓存命中),输出24元;V4-Flash则更为低廉。

国产算力:全面适配华为昇腾,打破CUDA依赖

V4发布背后更值得关注的,是其对国产算力生态的深度绑定。DeepSeek从模型设计之初即与华为深度合作,针对昇腾950PR芯片全面优化模型代码,将核心技术栈从英伟达的CUDA迁移至华为的CANN框架。这使V4成为全球首个在国产算力底座上完成训练与推理的万亿参数级模型。

此前,美国官员曾指控DeepSeek使用被禁止出口的英伟达Blackwell芯片进行训练。而在此次发布前后,DeepSeek仅向华为等国内芯片厂商开放提前适配权限,未向英伟达和AMD提供测试接入。据悉,阿里、字节、腾讯等科技巨头已提前向华为下达数十万颗昇腾芯片订单,供给紧张局势一度将芯片价格推高20%。

不过需要指出的是,V4目前的服务吞吐受限于高性能算力的供应。DeepSeek在新闻稿中表示,当前Pro版本的吞吐量有限、价格偏高,预计今年下半年华为昇腾950超节点批量上市后,Pro版的价格将“大幅下调”。

行业影响:开源与闭源的分水岭正在逼近

综合来看,DeepSeek-V4的发布标志着中国大模型在技术自主和成本效率两个维度上的关键突破。一方面,模型通过注意力机制创新实现了百万上下文的普惠化,推理成本据估算仅为GPT-4等闭源模型的几十分之一;另一方面,其在国产算力生态上的完整适配,为中国AI产业链“模型—芯片—云”闭环的打通提供了可行性样本。

当然,差距依然存在。V4在深度推理和多模态能力方面与国际顶尖闭源模型仍有距离,开源模型“能执行、会思考”的能力边界仍在拓展之中。但正如业内人士所指出的,当结构创新开始替代算力堆砌成为决定性变量,开源模型追赶闭源模型的速度,可能比很多人预期的要快。


0

35 0

发表评论

登陆后参与评论