山人案:笔者并非学经济学专业出身的,因此文章中难免存在些许不当之处,近来实在被期末作业困扰得烦闷,故作文以自娱罢……
凡是合乎理性的东西都是现实的;凡是现实的东西都是合乎理性的。 ——黑格尔
从诞生到成为现象级应用的崛起之路
DeepSeek公司的历史追溯起来其实非常短暂。2023年7月,知名量化资管巨头幻方量化在杭州默默成立了这家人工智能公司,其掌门人梁文锋则顺理成章地成为了创始人。但是这家公司的发展势头非常猛。

笔者最早接触DeepSeek是2024年5月DeepSeek-V2版本发布的时候。熟悉那时候各大AI论坛的朋友应该都还记得,当时国内中文能力比较强的大模型屈指可数,DeepSeek就是其中之一。不过那时的DeepSeek还只是在大模型测试榜单以及开源社区里频频刷榜,基本上就是在小圈子里曝光度高一些,属于不温不火的状态。
一直到2024年12月26日,DeepSeek开源了拥有6710亿总参数的DeepSeek-V3,这次DeepSeek的新版本模型明显比上一版本强大。

DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
不过半个月后的2025年1月20日,正值春节前夕,DeepSeek 突然推出推理模型DeepSeek-R1。由于这个版本的大模型性能非常强悍且成本极其低廉,借着公共假期的东风,DeepSeek迅速引爆全球。
这张大模型能力测评的表单,大家应该不陌生
2025年1月27日,R1发布仅仅一周,DeepSeek App在包括中美英在内的157个国家登顶苹果应用商店下载榜,风头无两。2025年1月31日,其日活跃用户(DAU)突破2215万,成为全球增长最快的APP之一,达到了同期ChatGPT DAU的41.6%,并超越了竞争对手。
令人费解的“退步”——以退为进
DeepSeek可以说真的火了!但是用户很快发现,DeepSeek虽然能力确实很强,但是官网访问经常会出现“服务器繁忙,请稍后再试”。

笔者还记得,那时人们网上除了讨论DeepSeek怎么这么牛,更多的还是在问有哪些平替。而且,自从2025年1月27日之后,DeepSeek官网的API付费入口关闭了半个多月之久,官方解释的原因当然是“算力有限”以及“黑客攻击”。官方也迅速采取行动,暂停了非+86号码的新用户注册。此外,那会儿的DeepSeek甚至无法在开启深度思考的同时开启联网搜索。总之,这些都让DeepSeek官网提供的应用体验十分糟糕。

好在DeepSeek的大模型都是开源的,这意味着任何人都可以在自己的电脑上自部署DeepSeek大模型,享受本地服务从而避免直面官网的“服务繁忙”。

但是让笔者费解的是,为什么这样一家技术领先风头正盛的科技巨头,在业务出圈的时候官网服务却是如此的“退步”?难道短短的“算力有限”就可以回答了吗?笔者以为,DeepSeek背后的动因与目的大相径庭。种种迹象表明,这不能简单归因为资源瓶颈,而更像是一场“阳谋”。
首先,API接入的“间歇性”关闭是这场棋局的序幕。DeepSeek面临的算力紧张、黑客攻击是真实存在的“导火索”,不过很快就转变成为将计就计了。这表现为两点。
第一,官网如今的推理压力早就已经缓解,但是官网至今仍然频繁出现无法正常联网搜索的问题。联网能力对于大模型获取新知识、提升回答质量至关重要。让模型联网除了增加模型token消耗,其他的好处尤其是对于DeepSeek-R1这样幻觉率高达15%的大模型来说显然是有必要的,但官网的联网搜索经常是力不从心,甚至网上还有用户声称手机注册用户可以联网,而邮箱注册用户则不能。

当然我还必须承认DeepSeek官网的联网搜索比不少自部署或者API接入的R1搭配诸如searXNG一类开源搜索引擎的检索深度和效果都要好,这可能也是官网特别优化加强过的地方,但这些都不能说明搜索能力会受到“算力有限”的影响,反而这让笔者怀疑,这是DeepSeek在有计划、有步骤地将一部分用户“推向”第三方。
第二,DeepSeek在2025年3月公开了他们的营收模式,其中最让笔者注意的是其超过500%的利润率。

我们知道,从DeepSeekV2以来,DeepSeek模型服务就以“价格屠夫”示众,他们的模型价格总是比行业其他模型便宜1/10左右,质疑DeepSeek亏本打价格战的声音也一直有。如今利润率一公布不仅证明了DeepSeek公司极为深厚的技术实力,更多说明了DeepSeek的吸金能力极其强悍!
那么我们就可以大胆猜测了,在如此高的利润率下,即便面临美国对DeepSeek购买显卡算力的禁售令。
DeepSeek Shows Controls Work: Chinese AI companies like DeepSeek openly acknowledge that chip restrictions are their primary constraint, requiring them to use 2-4x more power to achieve similar results to U.S. companies. DeepSeek also likely used frontier chips for training their systems, and export controls will force them into less efficient Chinese chips.
即便租用算力的成本是购买显卡时间成本的200%,DeepSeek哪怕只是拿出利润的小部分难道会租不到算力?难不成DeepSeek巨大的盈利空间就会腰斩了?
并且,DeepSeek的一个巨大优势是它的架构优化实现的对显卡性能的压榨,据DeepSeek《DeepSeek-V3/R1推理系统概览》声称,对于decode任务,DeepSeek平均每台H800输出吞吐约14.8ktokens/s。作为对比,2025年2月,优化后的英伟达H200的节点峰值输出吞吐仅5.9ktokens/s;B200的节点峰值输出吞吐仅21ktokens/s。吞吐率是衡量NLP模型性能的核心指标,表示在单位时间内能处理的文本标记(Token)数量。DeepSeek在使用性能低于H200的H800的前提下,吞吐能力仍然高于H200,算力效率极其恐怖。既然如此,DeepSeek的显卡GPU需求以及成本就比对手低了不止一个量级。

不过显然,官方对此从没有什么动作,持续的“算力不足”到此为止更像是一个“伪问题”。山人在此更加质疑其真实意图就是不想算力充足,以便将用户导向第三方。

而这些表象,要是以传统的闭源商业视角解读简直就是自毁长城,但是如果我们注意到,DeepSeek大模型从来都是一个开源模型,如果把它放在开源生态的逻辑里,是不是就很容易理解DeepSeek的做法了呢?是不是就很容易理解幻方量化“做空”美股赚钱的逻辑了呢?
DeepSeek的开源战略与生态构建
DeepSeek的大棋根本是一个开源的战略,举个类似的例子可能就是同样开源的Android生态。
Android的对手是Apple的闭源IOS,Apple的逻辑自然是将iPhone打造成最强的手机,甚至乔布斯还戏称iPhone就是装着iOS的礼盒。而Google的打法和Apple截然相反,Google旗下也有亲儿子手机,早前是太子Nexus系列,现在是Pixel系列,不过从始至终,Google造的手机从来都不是Android的头号打手,相反的,依靠开放手机联盟(Open Handset Alliance),Android拉拢三星、小米、OPPO、vivo等厂商共建生态互相竞争,以此做大蛋糕。一份全球移动设备操作系统的占比图中可以看出,Android的占比稳居全球第一,这时,我们都知道了,Pixel的销量排名被甩飞重要吗?Google应用没有一家独大(特别是在中国)重要吗?

官方应用一家独大,反而成为开源项目的绊脚石!!!
而这也是DeepSeek主动让渡官网服务背后的逻辑。换句话说,DeepSeek通过主动降低官网和官方API的可用性,实际上是在“推走”用户,为盟友创造机会。
首先,大模型的最佳应用场景从来不是Chat层面,相反的基于大模型构建应用才是大模型的“广阔天地”,而要做到这些,都需要一个稳定的服务支持,至少要保证服务可用性。但是官方API却偏偏在爆火的时候停用而且关闭充值通道,国内用户自然就会流向诸如火山云、阿里云、百度云等提供的自部署DeepSeek-API,国外用户则涌向Azure、AWS。试想一下,如果官网的API稳如老狗,谁没事搬去他家,一手跟进最新版本的大模型不香吗?
其次,官网的Chat体验,也就是和普通用户接触最为频繁的应用层面体验实在是垃圾,这时用户则转向了腾讯混元R1、豆包R1、百度R1甚至是手机厂商内置部署的小爱R1、华为小艺R1等等第三方应用。

虽然有开源本身的因素,但是就是借着一个多月的“繁忙”、“不能联网”、“API不能充值”,DeepSeek官网至少80%的流量和用户都被以这种方式“让渡”了出去。以至于官网版本的DeepSeek沦为最难用的版本,但这好比“鲸落”,滋养了整个AI生态系统,而在这个过程中,谁最先抓住机遇,谁最先接入DeepSeek,谁就最先赚到这波热钱,而DeepSeek只不过收获了巨大的品牌声望和流量。这也样笔者不得不佩服DeepSeek的魄力和胆识。
化敌为友,合纵连横的商业奇局
如果前诉的只不过是最开始DeepSeek开源生态圈的打造,那么接下来的DeepSeek生态帝国则不得不让你佩服其战略的高瞻远瞩。是的,DeepSeek的战略不仅在于把自己这波新生力量及时壮大转化,更在于将昔日的竞争对手转化为强大的盟友。
为什么山人会怎么说?最为突出的例子就是腾讯。
腾讯本身就是坐拥大量算力的超级互联网大厂,虽然腾讯云的实力和中国云服务的代表阿里云还不能同日而语,但是毕竟腾讯的实力不容小觑。我们也不要忘记了,腾讯最开始自研大模型的一家,他和DeepSeek是显著的竞争对手。但是3月以来,腾讯在他的各种软件里基本都植入了DeepSeek-R1。

凭借稳定的DeepSeek-R1以及深度思考和联网搜索支持同时启用的腾讯元宝App,在短短时间内从App Store总榜200名开外冲到榜首,甚至一度超越DeepSeek官方App,其广告投入也从3000万激增至3亿。

这难道不是DeepSeek喜闻乐见的吗:盟友出钱出力,把蛋糕做大。
其他的例子就不必多说了,李彦宏的反差导致百度全面拥抱DeepSeek;字节跳动旗下的火山云也成为DeepSeek在国内重要的云盟友。
火山云的DeepSeek-API用过的都说好,首字延迟极低。
不过DeepSeek的雄心显然不止于国内,单单从DeepSeek不分国别在全球范围提供的免费服务以及其App海外App Store上架都证明了这一点。
海外的大模型供应商基本可以分为两类,一类是诸如OpenAI、Anthropic等初创公司,在2020年以来的AI浪潮里逐渐崛起。对于这些初创公司,他们迫切需要的就是融资。而另外一类则是大厂下场做AI,典型的例子就是马斯克的xAI和Google的Gemini,他们都是后发的AI公司,凭借母公司财大气粗的实力长期做大模型的慈善也获得了资本市场的重视。
而2025年以来OpenAI和Anthropic都完成了数十亿、乃至百亿美元的新融资。这其中,微软的Azure正是OpenAI的金主。不过微软在面临DeepSeek这个劲敌显然也把它当成备胎。1月30日,微软Azure就宣布DeepSeek R1上架Azure AI Foundry,Azure几乎是海外最快提供DeepSeek服务的IDC,并且Azure还十分良心地持续免费提供DeepSeek配额。

Azure对DeepSeek的重视程度,甚至超过了Google对自家Gemini部分免费模型的支持力度。微软的Copilot等AI产品若想在中国合规落地,DeepSeek显然是理想的合作伙伴。
Anthropic的金主则是亚马逊,Anthropic的CEO是典型的仇中,他对DeepSeek抱有很深的敌意,其旗下的Claude带头拒绝在中国大陆甚至中国香港和澳门提供服务,甚至屡次封号中国用户。但是金主亚马逊云(AWS)作为美国第一大云服务商,为了和微软抢夺流量,也不得不接纳DeepSeek-R1。并且AWS的DeepSeek-R1 API几乎是海外IDC接入难度最低的,甚至允许用户可以使用Amazon SageMaker JumpStart加快部署速度,也支持开启Amazon EC2的显卡实例来部署。

更不要说,DeepSeek的火爆为难产的Apple Intelligence中国版进入提供了契机。早前坊间传闻苹果AI将会接入百度文心一言(海外版接入的是ChatGPT),而DeepSeek火热以后,许多评论都在指向苹果接入DeepSeek的可能性,从DeepSeek低廉的价格来看,这也未必不可能。

总之,DeepSeek通过主动让渡流量和用户的核心利益,成功地在一个月内将多个曾经的“敌人”转化为“盟友”。要知道春节前夕火热的国产大模型还都是kimi,豆包一类,他们无一不是依赖巨量的广告和铺天盖地的宣传成就的,但是DeepSeek不动吹灰之力就完成了逆袭,堪称商战奇迹。
棋眼所在:DeepSeek的生存智慧
当前中美贸易竞争激烈,中美科技界加速脱钩。在这种背景下,DeepSeek这样的科技领头羊,其数据安全以及AI技术主导权是显然的敏感问题。
说起这个,TikTok的遭遇大家应该不陌生。TikTok经过多次波折,TikTok Pte. Ltd.早就成为一家纯粹的新加坡公司,成为独立于中国大陆的海外公司。周受资还多次强调TikTok从来没有、也不会与中国政府共享美国用户数据。甚至TikTok在全美的数据全部托管在Oracle,其源代码包括算法和数据模型还接受了Oracle的审查,但是结果呢。TikTok仍然不被美国市场接纳。这里头的政治因素云云此处不必多说,总之中国公司运营的AI服务,要想在美国做大,必然面临数据安全审查和潜在的封禁风险。
而DeepSeek的选择是什么呢?就是开源技术。DeepSeek就是故意让官方服务“难用”,将用户推向美国本土公司和美国云服务。就算DeepSeek再怎么中国化,他免费展示cot的大模型魔法也逼得美国公司纷纷接入,美国政府总不能封禁自己的企业吧。我姑且称这种策略为“寄生”,DeepSeek得以最大限度地降低政治风险,实现技术的渗透与发展。这也是我认为DeepSeek在复杂地缘政治环境下为求生存和发展最为明智的选择。
母公司的考量与未来
DeepSeek这种令常人费解的商业模式到此为止已经易于理解的话,那么终极之问来了:DeepSeek的母公司为什么要这样做,幻方量化从中获益了什么?
首先,幻方量化是一家2015年才在杭州成立的量化基金和对冲基金公司,公司的三位创始人则是三位浙江大学的工程师。幻方量化的核心盈利点就是金融投资,而且是量化基金的投资。
需要解释的是何为量化基金?一般的说,基金经理做出投资决策的方式可以被划分为“质化”或“量化”,而两者的差异在于如果整个决策过程依赖于人为判断,这个过程就是“质化”;而当决策纯粹基于电脑数学模型则被称为“量化”。所以不难理解,为什么幻方量化会做人工智能,而DeepSeek-R1发布引发美股波动正好就利好幻方量化做空做多操作。

基于这样的思路,我们也就不能理解,除了构建开源帝国的野心,DeepSeek的核心目的根本也非做强AI订阅服务。更进一步说API营收的微薄收入DeepSeek根本瞧不上。相较于市场影响力和名声,特别是现在DeepSeek的风头,名声越大,未来发布R2等新模型时对竞争对手的冲击就越大。这样幻方量化在金融市场的潜在收益早就远远超越API服务。这也使得DeepSeek有底气将模型开源,进而追求市场影响力。
此外,DeepSeek团队多次声明自己只是“小团队”。毕竟在当前的AI市场策略之下,普通用户对大模型产品从来没有忠诚度,甚至一段时间的DeepSeek热以后,用户对接入DeepSeek类产品的好奇心也开始有所消退。甚至有的大厂已经开始转过头来吐槽DeepSeek,来为自家模型站台了。
“中国市场上绝大多数的大模型API调用价格都比DeepSeek满血版要低,而且速度也更快。”
而DeepSeek的核心优势在于研发。他更愿意将模型的部署、运维、服务等交给更擅长的云服务商和第三方应用开发者,自己则专注于核心技术突破,这也使DeepSeek获取了不少政府的投资,不失为一种扬长避短的选择。

结论:退一步、进两步
列宁同志曾经这样解释新经济政策:
我们现在退却,好象是在向后退,但是我们这样做是为了先后退几步,然后再起跑,更有力地向前跳。
那是列宁同志在面临革命低潮和国内建设压力的时候做出的选择。看起来,战略性退却都是顶着巨大压力进行的,然而事实证明必要的退却之后换来的却是真正的最后胜利。
DeepSeek正在下一盘大棋……