汉唐归来
惟有中华

云海观星社:DeepSeek-V4问世,中美AI竞争的格局要变了|2026-04-25

4月24晚上,硅谷的巨头们可能没睡好觉。

因为这一天,DeepSeek毫无预兆地扔出了一个重磅炸弹——DeepSeek-V4预览版正式上线并同步开源。

等了一年,这只靴子终于落地了。

那么,这次的DeepSeek-V4又会给我们带来什么呢?

梁文锋,悄悄给了我们一个有意思的答案。

先来简单说一下DeepSeek-V4的技术特点。

这次DeepSeek-V4发布了两个版本:一个是DeepSeek-V4-Pro,另一个是DeepSeek-V4-Flash。

你可以简单理解为一个旗舰版,一个普通版。

直接看旗舰款V4-Pro它的总参数量达到了1.6T(1.6万亿)。

1.6万亿是什么概念?两年前大家还在为千亿参数欢呼,如今参数规模直接膨胀了一个数量级。

不过呢?在AI圈里,参数大,并不算是难事,也不完全是好事。

你只要有足够的卡、足够的时间和足够的电,参数堆上去就是了。

真正考验技术的,是怎样有效调用参数,否则,你问它“今天天气怎么样”,它都要把这1.6万亿个参数全部跑一遍,那就完了,全世界的电都不够它造的。

DeepSeek解决这个问题的思路,选择了MoE架构

在这个架构下,你问它“今天天气怎么样”真正被激活的参数只有490亿。

我们可以简单举个例子

假设你建立了一家拥有1600名顶级专家的超级医院如果走进来一个骨折的病人,你不需要让心脑血管专家、消化科专家、妇产科专家全部过来会诊系统会精准地识别出病人的需求,只把骨科的49名专家叫醒来干活其他专家继续睡觉,极大降低了功耗

这种在架构上的抠门,直接造就了V4恐怖的推理效率,达到了V3的35倍,能耗降低40%

而这,也就为下面的一个神迹埋下了伏笔——上下文。

DeepSeek官方宣布从今往后,1M(100万)Token的上下文长度,DeepSeek所有官方服务的标配。

上下文有啥用?

举个例子,我要写一篇论文,扔给AI几十篇论文让它“参考”,但是如果上下文过短,可能喂给它几篇它就饱了,那论文肯定就没法写。

但是如果我把上下文拉到100万呢?那我就可以一次性一整本书、一整个代码库、甚至几个月的会议记录扔给它,让它帮我处理。

当然,100万上下文在技术上要求很高,所以一年前,100万上下文只是谷歌Gemini拿来当做企业级卖点的王牌,其他各家大模型基本都在128K或256K的区间里打转。

现在,DeepSeek直接100万起步了

100万Token有多长?大约相当于15到20本长篇小说,或者一个中型软件公司的底层代码

那么问题来了,为什么以前大家不做100万上下文?

答案很简单,上下文越长越贵。

举个例子,你让AI帮你读一遍《三体》然后总结一下,这个过程中AI需要“记住”三本书的全部内容,同时还要理解你问的问题。

你喂给它文本,它的思考,它的输出,都要存进显存里,这就叫KVCache

平时处理个几千字,KVCache占用不了多少显存。

但如果你让它吞下100万字,KVCache的体积会呈指数级暴涨真要按传统方法硬算,为了存这100万字的上下文,光买显卡都要买破产

在传统的技术架构下,文本长度翻一倍,计算量是平方级往上涨的——不是翻两倍,是翻四倍。

所以不是AI大厂故意把1M上下文定价这么贵,而是技术原理决定了它便宜不了。

V4做了件很有意思的事它用了一种CSA压缩稀疏注意力)和HCA重度压缩注意力设计。

简单说,过去AI读东西,是逐字逐句认认真真读,每个字跟每个字之间都要算一遍关系。

V4的做法是先快速扫一眼,判断哪里是关键信息,然后把算力集中砸在这些关键地方,其他地方简单带过。

仍以AI读《三体》为例,你让它读,它不会通读,而是看看这一章讲了啥,讲了叶文洁叛变,那就提取出叶文洁叛变”的特征向量下一章讲“水滴大战人类舰队”,它就提取出水滴大战人类舰队”的特征向量。

然后,DeepSeek就能根据你的提问,有针对性地再去读三体,然后给你答案。

这样一来,消耗的算力就大大减少了。

根据官方数据,在100万Token的极端场景下,V4-Pro处理单个Token所需的计算量仅仅是上一代V3.2的27%,而占用的KVCache更是直接暴降到了10%!

这意味着什么?意味着同样的服务器配置,以前能同时处理100个用户的长文本请求,现在差不多能处理三四百个。

而这个过程中,你的成本基本上是没变化的,那是不是就意味着,可以给用户便宜点了?

这就引出了DeepSeek-V4的下一个特点,便宜。

我们来看看官方公布的定价:

DeepSeek-V4-Flash,输入价格是0.2元/百万Token,输出2元/百万Token。

DeepSeek-V4-Pro,输入1元/百万Token,输出24元/百万Token。

这是个什么概念?

西方同等水平的闭源模型Claude Opus 4.6为例,输入价格是5美元/百万Token,输出25美元/百万Token

综合算下来,它的API调用成本起码是V4的十几倍

还记得前一阵子的龙虾热吗?网上有个标签叫“月薪两万,养不起龙虾”。

为啥?因为几个龙虾在一起对接讨论,每一句话都要消耗token,结果讨论一晚上,主人第二天醒来发现银行卡直接爆了。

而现在,我们终于等来老百姓能用得起的AI了,对网文作者或者酒馆瑟瑟玩家来说,那更是莫大的福音。

不得不说啊,只有人民的国家,才能诞生人民的AI。

过去这两年,美国的AI浪潮,正在走向不可逆转的精英化与贵族化,AI正在悄悄制造一种新的阶级壁垒。

那些基金经理和硅谷工程师,他们花着极其高昂的API调用费,让AI帮他们日夜不停地分析财报、写代码,然后赚更多的钱。

而普通人呢?面对动辄几十美元每百万Token的成本,根本舍不得用。

AI没有缩小人与人之间的差距,反而正在以前所未有的速度撕裂这个世界。

算力,正在成为只有富人才能消费得起的数字特权。

但这种事,不应该在中国发生。

中国过去四十年的崛起,其实建立在一个极其朴素的执念上——

基础设施,无论是电网、高速公路还是高铁,必须让老百姓用得起。

因为我们知道,只有让十四亿人都能毫无负担地享受这种基础设施,这个国家才能迸发出最恐怖的创造力。

想想看,当100万Token的推理成本比买一个包子还便宜时,中国会发生什么?

大山里的孩子,哪怕他手里只有一台二手手机,他也可以拥有一个无所不知、永远耐心、水平比肩清华北大学霸的私人家教。

一个视障人士走在街上,只要举起手机,AI就能全天候、不间断地为他解说摄像头看到的世界,告诉他前面有一滩水,左边过来一辆电动车(这个功能豆包已经有了)。

科技的至高荣耀,从来不是让少数富人拥有更精致的玩具,而是让最平凡的普通人,拥有对抗命运无常的武器。

DeepSeek-V4的价格,就是在告诉所有中国人,AI面前,人人平等。

不过,你以为现在的DeepSeek-V4已经够便宜了?不,还不够。

DeepSeek公告价格表上面,还有一串需要用放大镜才能看清的小字:

受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

普通人看到这句话,啥?这么便宜了,还要下调?

而我看到这句话,啥?昇腾950?超节点?DeepSeek-V4用的是国产芯片吗?国产GPU突破了?

这真是个石破天惊的消息。

为啥?因为中国苦算力芯片久矣!

2022年10月开始,美国对中国AI算力的封堵一波接一波。到2026年1月,最新的芯片法案规定禁止向中国出售英伟达Blackwell芯片,立场是至少两年不松动BIS甚至把出口管制执法往刑事方向推进直接追究公司董事会成员的个人刑事责任。

美国人的逻辑是:断掉你最先进的芯片供应,你的大模型发展就会卡住中国的AI就永远只能在小模型里打转,永远追不上他们

这就是为什么过去的一年,国外的王炸大模型一个接一个,而中国鲜有能匹敌的大模型问世,就连中国之光deepseek也没了消息。

芯片被卡脖子,很多AI公司只能高价走私GPU来维持训练但这样不仅可能会被锁卡,还可能泄露关键数据。

那怎么办?硬着头皮搞全国产化!

于是,华为昇腾950应运而生。

昇腾950在600W功耗下实现1.56PFP4算力,推理性能达英伟达H20近3倍

看起来解决了燃眉之急,但并不能彻底解决问题。

哪怕昇腾950PR芯片再厉害,但因为中国光刻机还没有彻底突破,只能用DUV,用不了最先进的EUV,所以只能被锁死在7nm制程工艺上。

赞(21)
请您分享转发:汉风1918-汉唐归来-惟有中华 » 云海观星社:DeepSeek-V4问世,中美AI竞争的格局要变了|2026-04-25
分享到