云海观星社：DeepSeek-V4问世，中美AI竞争的格局要变了|2026-04-25-汉风1918-汉唐归来-惟有中华

4月24日晚上，硅谷的巨头们可能没睡好觉。

因为这一天，DeepSeek毫无预兆地扔出了一个重磅炸弹——DeepSeek-V4预览版正式上线并同步开源。

等了一年，这只靴子终于落地了。

那么，这次的DeepSeek-V4，又会给我们带来什么呢？

梁文锋，悄悄给了我们一个有意思的答案。

一

先来简单说一下DeepSeek-V4的技术特点。

这次DeepSeek-V4发布了两个版本：一个是DeepSeek-V4-Pro，另一个是DeepSeek-V4-Flash。

你可以简单理解为一个旗舰版，一个普通版。

直接看旗舰款V4-Pro，它的总参数量达到了1.6T（1.6万亿）。

1.6万亿是什么概念？两年前大家还在为千亿参数欢呼，如今参数规模直接膨胀了一个数量级。

不过呢？在AI圈里，参数大，并不算是难事，也不完全是好事。

你只要有足够的卡、足够的时间和足够的电，参数堆上去就是了。

真正考验技术的，是怎样有效调用参数，否则，你问它“今天天气怎么样”，它都要把这1.6万亿个参数全部跑一遍，那就完了，全世界的电都不够它造的。

DeepSeek解决这个问题的思路，是选择了MoE架构。

在这个架构下，你问它“今天天气怎么样”，真正被激活的参数只有490亿。

我们可以简单举个例子：

假设你建立了一家拥有1600名顶级专家的超级医院，如果走进来一个骨折的病人，你不需要让心脑血管专家、消化科专家、妇产科专家全部过来会诊，系统会精准地识别出病人的需求，只把骨科的49名专家叫醒来干活，其他专家继续睡觉，极大降低了功耗。

这种在架构上的抠门，直接造就了V4恐怖的推理效率，达到了V3的35倍，能耗降低40%。

而这，也就为下面的一个神迹埋下了伏笔——上下文。

DeepSeek官方宣布，从今往后，1M（100万）Token的上下文长度，将是DeepSeek所有官方服务的标配。

上下文有啥用？

举个例子，我要写一篇论文，扔给AI几十篇论文让它“参考”，但是如果上下文过短，可能喂给它几篇它就饱了，那论文肯定就没法写。

但是如果我把上下文拉到100万呢？那我就可以一次性一整本书、一整个代码库、甚至几个月的会议记录扔给它，让它帮我处理。

当然，100万上下文在技术上要求很高，所以一年前，100万上下文只是谷歌Gemini拿来当做企业级卖点的王牌，其他各家大模型基本都在128K或256K的区间里打转。

现在，DeepSeek直接100万起步了。

100万Token有多长？大约相当于15到20本长篇小说，或者一个中型软件公司的底层代码库。

那么问题来了，为什么以前大家不做100万上下文？

答案很简单，上下文越长越贵。

举个例子，你让AI帮你读一遍《三体》然后总结一下，这个过程中AI需要“记住”三本书的全部内容，同时还要理解你问的问题。

你喂给它文本，它的思考，它的输出，都要存进显存里，这就叫KVCache。

平时处理个几千字，KVCache占用不了多少显存。

但如果你让它吞下100万字，KVCache的体积会呈指数级暴涨，真要按传统方法硬算，为了存这100万字的上下文，光买显卡都要买破产。

在传统的技术架构下，文本长度翻一倍，计算量是平方级往上涨的——不是翻两倍，是翻四倍。

所以不是AI大厂故意把1M上下文定价这么贵，而是技术原理决定了它便宜不了。

而V4做了件很有意思的事，它用了一种CSA（压缩稀疏注意力）和HCA（重度压缩注意力）设计。

简单说，过去AI读东西，是逐字逐句认认真真读，每个字跟每个字之间都要算一遍关系。

V4的做法是，先快速扫一眼，判断哪里是关键信息，然后把算力集中砸在这些关键地方，其他地方简单带过。

仍以AI读《三体》为例，你让它读，它不会通读，而是看看这一章讲了啥，讲了叶文洁叛变，那就提取出“叶文洁叛变”的特征向量，下一章讲“水滴大战人类舰队”，它就提取出“水滴大战人类舰队”的特征向量。

然后，DeepSeek就能根据你的提问，有针对性地再去读三体，然后给你答案。

这样一来，消耗的算力就大大减少了。

根据官方数据，在100万Token的极端场景下，V4-Pro处理单个Token所需的计算量仅仅是上一代V3.2的27%，而占用的KVCache更是直接暴降到了10%！

这意味着什么？意味着同样的服务器配置，以前能同时处理100个用户的长文本请求，现在差不多能处理三四百个。

而这个过程中，你的成本基本上是没变化的，那是不是就意味着，可以给用户便宜点了？

这就引出了DeepSeek-V4的下一个特点，便宜。

我们来看看官方公布的定价：

DeepSeek-V4-Flash，输入价格是0.2元/百万Token，输出2元/百万Token。

DeepSeek-V4-Pro，输入1元/百万Token，输出24元/百万Token。

这是个什么概念？

以西方同等水平的闭源模型Claude Opus 4.6为例，输入价格是5美元/百万Token，输出25美元/百万Token。

综合算下来，它的API调用成本起码是V4的十几倍！

还记得前一阵子的龙虾热吗？网上有个标签叫“月薪两万，养不起龙虾”。

为啥？因为几个龙虾在一起对接讨论，每一句话都要消耗token，结果讨论一晚上，主人第二天醒来发现银行卡直接爆了。

而现在，我们终于等来老百姓能用得起的AI了，对网文作者或者酒馆瑟瑟玩家来说，那更是莫大的福音。

不得不说啊，只有人民的国家，才能诞生人民的AI。

过去这两年，美国的AI浪潮，正在走向不可逆转的精英化与贵族化，AI正在悄悄制造一种新的阶级壁垒。

那些基金经理和硅谷工程师，他们花着极其高昂的API调用费，让AI帮他们日夜不停地分析财报、写代码，然后赚更多的钱。

而普通人呢？面对动辄几十美元每百万Token的成本，根本舍不得用。

AI没有缩小人与人之间的差距，反而正在以前所未有的速度撕裂这个世界。

算力，正在成为只有富人才能消费得起的数字特权。

但这种事，不应该在中国发生。

中国过去四十年的崛起，其实建立在一个极其朴素的执念上——

基础设施，无论是电网、高速公路还是高铁，必须让老百姓用得起。

因为我们知道，只有让十四亿人都能毫无负担地享受这种基础设施，这个国家才能迸发出最恐怖的创造力。

想想看，当100万Token的推理成本比买一个包子还便宜时，中国会发生什么？

大山里的孩子，哪怕他手里只有一台二手手机，他也可以拥有一个无所不知、永远耐心、水平比肩清华北大学霸的私人家教。

一个视障人士走在街上，只要举起手机，AI就能全天候、不间断地为他解说摄像头看到的世界，告诉他前面有一滩水，左边过来一辆电动车（这个功能豆包已经有了）。

科技的至高荣耀，从来不是让少数富人拥有更精致的玩具，而是让最平凡的普通人，拥有对抗命运无常的武器。

而DeepSeek-V4的价格，就是在告诉所有中国人，AI面前，人人平等。

二

不过，你以为现在的DeepSeek-V4已经够便宜了？不，还不够。

在DeepSeek公告价格表上面，还有一串需要用放大镜才能看清的小字：

受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

普通人看到这句话，啥？这么便宜了，还要下调？

而我看到这句话，啥？昇腾950？超节点？DeepSeek-V4用的是国产芯片吗？国产GPU突破了？

这真是个石破天惊的消息。

为啥？因为中国苦算力芯片久矣！

从2022年10月开始，美国对中国AI算力的封堵一波接一波。到2026年1月，最新的芯片法案规定禁止向中国出售英伟达Blackwell芯片，立场是至少两年不松动，BIS甚至把出口管制执法往刑事方向推进，直接追究公司董事会成员的个人刑事责任。

美国人的逻辑是：断掉你最先进的芯片供应，你的大模型发展就会卡住，中国的AI就永远只能在小模型里打转，永远追不上他们。

这就是为什么过去的一年，国外的王炸大模型一个接一个，而中国鲜有能匹敌的大模型问世，就连中国之光deepseek也没了消息。

芯片被卡脖子，很多AI公司只能高价走私GPU来维持训练，但这样不仅可能会被锁卡，还可能泄露关键数据。

那怎么办？硬着头皮搞全国产化！

于是，华为昇腾950应运而生。

昇腾950在600W功耗下实现1.56PFP4算力，推理性能达英伟达H20近3倍。

看起来解决了燃眉之急，但并不能彻底解决问题。

哪怕昇腾950PR芯片再厉害，但因为中国光刻机还没有彻底突破，只能用DUV，用不了最先进的EUV，所以只能被锁死在7nm制程工艺上。

云海观星社：DeepSeek-V4问世，中美AI竞争的格局要变了|2026-04-25

相关推荐

分类

按日期归档文章

2026 年 4 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30