4月24日晚上,硅谷的巨头们可能没睡好觉。
因为这一天,DeepSeek毫无预兆地扔出了一个重磅炸弹——DeepSeek-V4预览版正式上线并同步开源。
等了一年,这只靴子终于落地了。
那么,这次的DeepSeek-V4,又会给我们带来什么呢?
梁文锋,悄悄给了我们一个有意思的答案。
一
先来简单说一下DeepSeek-V4的技术特点。
这次DeepSeek-V4发布了两个版本:一个是DeepSeek-V4-Pro,另一个是DeepSeek-V4-Flash。
你可以简单理解为一个旗舰版,一个普通版。
直接看旗舰款V4-Pro,它的总参数量达到了1.6T(1.6万亿)。
1.6万亿是什么概念?两年前大家还在为千亿参数欢呼,如今参数规模直接膨胀了一个数量级。
不过呢?在AI圈里,参数大,并不算是难事,也不完全是好事。
你只要有足够的卡、足够的时间和足够的电,参数堆上去就是了。
真正考验技术的,是怎样有效调用参数,否则,你问它“今天天气怎么样”,它都要把这1.6万亿个参数全部跑一遍,那就完了,全世界的电都不够它造的。
DeepSeek解决这个问题的思路,是选择了MoE架构。
在这个架构下,你问它“今天天气怎么样”,真正被激活的参数只有490亿。
我们可以简单举个例子:
假设你建立了一家拥有1600名顶级专家的超级医院,如果走进来一个骨折的病人,你不需要让心脑血管专家、消化科专家、妇产科专家全部过来会诊,系统会精准地识别出病人的需求,只把骨科的49名专家叫醒来干活,其他专家继续睡觉,极大降低了功耗。
这种在架构上的抠门,直接造就了V4恐怖的推理效率,达到了V3的35倍,能耗降低40%。
而这,也就为下面的一个神迹埋下了伏笔——上下文。
DeepSeek官方宣布,从今往后,1M(100万)Token的上下文长度,将是DeepSeek所有官方服务的标配。
上下文有啥用?
举个例子,我要写一篇论文,扔给AI几十篇论文让它“参考”,但是如果上下文过短,可能喂给它几篇它就饱了,那论文肯定就没法写。
但是如果我把上下文拉到100万呢?那我就可以一次性一整本书、一整个代码库、甚至几个月的会议记录扔给它,让它帮我处理。
当然,100万上下文在技术上要求很高,所以一年前,100万上下文只是谷歌Gemini拿来当做企业级卖点的王牌,其他各家大模型基本都在128K或256K的区间里打转。
现在,DeepSeek直接100万起步了。
100万Token有多长?大约相当于15到20本长篇小说,或者一个中型软件公司的底层代码库。
那么问题来了,为什么以前大家不做100万上下文?
答案很简单,上下文越长越贵。
举个例子,你让AI帮你读一遍《三体》然后总结一下,这个过程中AI需要“记住”三本书的全部内容,同时还要理解你问的问题。
你喂给它文本,它的思考,它的输出,都要存进显存里,这就叫KVCache。
平时处理个几千字,KVCache占用不了多少显存。
但如果你让它吞下100万字,KVCache的体积会呈指数级暴涨,真要按传统方法硬算,为了存这100万字的上下文,光买显卡都要买破产。
在传统的技术架构下,文本长度翻一倍,计算量是平方级往上涨的——不是翻两倍,是翻四倍。
所以不是AI大厂故意把1M上下文定价这么贵,而是技术原理决定了它便宜不了。
而V4做了件很有意思的事,它用了一种CSA(压缩稀疏注意力)和HCA(重度压缩注意力)设计。
简单说,过去AI读东西,是逐字逐句认认真真读,每个字跟每个字之间都要算一遍关系。
V4的做法是,先快速扫一眼,判断哪里是关键信息,然后把算力集中砸在这些关键地方,其他地方简单带过。
仍以AI读《三体》为例,你让它读,它不会通读,而是看看这一章讲了啥,讲了叶文洁叛变,那就提取出“叶文洁叛变”的特征向量,下一章讲“水滴大战人类舰队”,它就提取出“水滴大战人类舰队”的特征向量。
然后,DeepSeek就能根据你的提问,有针对性地再去读三体,然后给你答案。
这样一来,消耗的算力就大大减少了。
根据官方数据,在100万Token的极端场景下,V4-Pro处理单个Token所需的计算量仅仅是上一代V3.2的27%,而占用的KVCache更是直接暴降到了10%!
这意味着什么?意味着同样的服务器配置,以前能同时处理100个用户的长文本请求,现在差不多能处理三四百个。
而这个过程中,你的成本基本上是没变化的,那是不是就意味着,可以给用户便宜点了?
这就引出了DeepSeek-V4的下一个特点,便宜。
我们来看看官方公布的定价:
DeepSeek-V4-Flash,输入价格是0.2元/百万Token,输出2元/百万Token。
DeepSeek-V4-Pro,输入1元/百万Token,输出24元/百万Token。
这是个什么概念?
以西方同等水平的闭源模型Claude Opus 4.6为例,输入价格是5美元/百万Token,输出25美元/百万Token。
综合算下来,它的API调用成本起码是V4的十几倍!
还记得前一阵子的龙虾热吗?网上有个标签叫“月薪两万,养不起龙虾”。
为啥?因为几个龙虾在一起对接讨论,每一句话都要消耗token,结果讨论一晚上,主人第二天醒来发现银行卡直接爆了。
而现在,我们终于等来老百姓能用得起的AI了,对网文作者或者酒馆瑟瑟玩家来说,那更是莫大的福音。
不得不说啊,只有人民的国家,才能诞生人民的AI。
过去这两年,美国的AI浪潮,正在走向不可逆转的精英化与贵族化,AI正在悄悄制造一种新的阶级壁垒。
那些基金经理和硅谷工程师,他们花着极其高昂的API调用费,让AI帮他们日夜不停地分析财报、写代码,然后赚更多的钱。
而普通人呢?面对动辄几十美元每百万Token的成本,根本舍不得用。
AI没有缩小人与人之间的差距,反而正在以前所未有的速度撕裂这个世界。
算力,正在成为只有富人才能消费得起的数字特权。
但这种事,不应该在中国发生。
中国过去四十年的崛起,其实建立在一个极其朴素的执念上——
基础设施,无论是电网、高速公路还是高铁,必须让老百姓用得起。
因为我们知道,只有让十四亿人都能毫无负担地享受这种基础设施,这个国家才能迸发出最恐怖的创造力。
想想看,当100万Token的推理成本比买一个包子还便宜时,中国会发生什么?
大山里的孩子,哪怕他手里只有一台二手手机,他也可以拥有一个无所不知、永远耐心、水平比肩清华北大学霸的私人家教。
一个视障人士走在街上,只要举起手机,AI就能全天候、不间断地为他解说摄像头看到的世界,告诉他前面有一滩水,左边过来一辆电动车(这个功能豆包已经有了)。
科技的至高荣耀,从来不是让少数富人拥有更精致的玩具,而是让最平凡的普通人,拥有对抗命运无常的武器。
而DeepSeek-V4的价格,就是在告诉所有中国人,AI面前,人人平等。
二
不过,你以为现在的DeepSeek-V4已经够便宜了?不,还不够。
在DeepSeek公告价格表上面,还有一串需要用放大镜才能看清的小字:
受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
普通人看到这句话,啥?这么便宜了,还要下调?
而我看到这句话,啥?昇腾950?超节点?DeepSeek-V4用的是国产芯片吗?国产GPU突破了?
这真是个石破天惊的消息。
为啥?因为中国苦算力芯片久矣!
从2022年10月开始,美国对中国AI算力的封堵一波接一波。到2026年1月,最新的芯片法案规定禁止向中国出售英伟达Blackwell芯片,立场是至少两年不松动,BIS甚至把出口管制执法往刑事方向推进,直接追究公司董事会成员的个人刑事责任。
美国人的逻辑是:断掉你最先进的芯片供应,你的大模型发展就会卡住,中国的AI就永远只能在小模型里打转,永远追不上他们。
这就是为什么过去的一年,国外的王炸大模型一个接一个,而中国鲜有能匹敌的大模型问世,就连中国之光deepseek也没了消息。
芯片被卡脖子,很多AI公司只能高价走私GPU来维持训练,但这样不仅可能会被锁卡,还可能泄露关键数据。
那怎么办?硬着头皮搞全国产化!
于是,华为昇腾950应运而生。
昇腾950在600W功耗下实现1.56PFP4算力,推理性能达英伟达H20近3倍。
看起来解决了燃眉之急,但并不能彻底解决问题。
哪怕昇腾950PR芯片再厉害,但因为中国光刻机还没有彻底突破,只能用DUV,用不了最先进的EUV,所以只能被锁死在7nm制程工艺上。


