热门资讯> 正文
2025-05-28 13:19
梁文锋身材瘦削,行事风格内敛,在会议上时常显得害羞,甚至紧张。这位深度求索公司(DeepSeek)的创始人说话时容易磕磕绊绊,还会陷入长时间的沉默,他的公司最近颠覆了人工智能领域。但新员工很快就会明白,不要把他的沉思当成胆怯。一旦梁文锋理清讨论的细节,他就会针对模型架构、计算成本以及DeepSeek人工智能系统的其他复杂细节,抛出精准且难以回答的问题。
员工们称梁文锋为 “老板”,这是中国企业里对上级表达尊重的常见称呼。但不同寻常的是,他们的 “老板” 会给予年轻研究人员甚至实习生很大的权力 ,让他们承担大型的实验项目,经常到他们的办公桌旁询问进展,并鼓励他们探索不同寻常的工程路径。讨论的技术细节越多越好,尤其是当讨论能带来实际性能提升时,梁文锋会亲自在内部通讯渠道Lark上分享这些里程碑式的成果。一位前DeepSeek员工说, “他是个真正的书呆子。” 和本文采访的许多人一样,由于未获授权公开谈论公司,这位员工要求匿名。“有时,我觉得他比他的研究员更了解他们的研究。”
今年1月,梁文锋和他年轻的公司发布了给人以突破性震撼之感的人工智能模型R1,一举成为国际舞台的焦点。在多项常用来评估AI性能的标准化测试中,R1 击败了西方主要竞争对手,而DeepSeek却称,其基础模型的构建成本仅为GPT-4预估成本的5%。GPT-4是OpenAI旗下ChatGPT的基础模型。
这些测试结果触发了美国股市1万亿美元的抛售狂潮,也引发了关于美国利用出口管制阻碍中国人工智能领域发展的战略是否有效的质疑。亚马逊(Amazon)和微软(Microsoft)竞相将DeepSeek的模型添加到其云服务中,Meta和Mistral AI等竞争对手也是如此。 “基本上一个周末的时间,市场对DeepSeek的兴趣就急剧升温,所以我们迅速采取了行动。” 亚马逊公司语言模型市场负责人阿图尔·迪奥(Atul Deo)说。
DeepSeek拨开了美国人观察中国人工智能行业时的迷雾。过去,中国的人工智能笼罩在神秘之中,让美国人更容易把它当作被夸大的幽灵而不予理会,但实际情况可能比他们愿意承认的更令人畏惧。在这家初创公司崛起之前,许多美国公司和政策制定者都抱有宽慰性的观点,认为中国仍然远远落后于硅谷,自己有时间为最终的势均力敌做准备,甚至有机会阻止中国赶上来。但现实是,在DeepSeek总部所在地杭州和其他中国高科技中心,一直活跃着被称为“AI小龙”的创业公司。来自MiniMax和Moonshot AI等本土初创公司的复杂聊天机器人,在中国国内和美国都迅速走红。阿里巴巴的“千问”(Qwen)系列大型语言模型在谷歌和Anthropic的大语言模型排行榜上一直名列前茅;百度首席执行官李彦宏在4月份称,得益于其采用自主研发芯片组装的新型超级计算机,这家搜索巨头能够开发出与DeepSeek一样优秀但价格更低的模型。华为也因其旨在与英伟达(Nvidia)设备竞争的产品而赢得了赞誉。英伟达的图形处理器(GPU)为美国和欧洲最先进的人工智能模型提供支持。
此前,中国曾对科技行业展开反垄断调查和数据合规性审查,社交媒体、零工经济和游戏应用也遭遇了新的监管。如今,面对外部的干预,中国正在大力发展国内科技产业,向人工智能和半导体领域投入资源,鼓励中国高技能人才队伍,并呼吁构建“自主可控、协同运行”的软硬件生态系统。
具有讽刺意味的是,那些旨在减缓中国AI发展势头的地缘政治限制,反而推动了中国近期的进步。 Counterpoint分析师Wei Sun表示,美国和中国在人工智能领域的差距现在以月衡量,而不是以年来衡量。 Sun说,由于英伟达芯片被限制供应,反而催生了中国在人工智能领域的一些创新,“这种动态带来了一种达尔文式的压力:只有那些用更少资源做更多事情的人,才能生存下来。”
然而对于中国的创新,美国不少人则一直怀疑其中存在不当行为。美国众议院一个两党委员会在今年4月发布的一份报告中指控,DeepSeek与中国政府存在“重大”关联,称该公司非法窃取了OpenAI的数据,构成对美国国家安全的“严重威胁”。Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)在一篇3400字的博文中呼吁加强美国出口管制,并称DeepSeek肯定走私了大量英伟达GPU,包括其最先进的H100芯片。(彭博社近期报道称,美国官员正在调查DeepSeek是否通过新加坡的第三方采购被禁芯片,以绕过出口限制。)
Anthropic首席执行官达里奥·阿莫代伊
中国驻美大使馆驳斥了众议院委员会的指控,称其“毫无根据”。英伟达则表示,DeepSeek所使用的芯片符合出口规定,更多限制措施可能反而有利于中国的半导体产业。该芯片制造商的一位发言人表示,如果迫使DeepSeek更多依赖中国本土芯片和服务,将“助推华为和其他外国人工智能基础设施供应商的发展”。
作为这场争议的核心,DeepSeek至今仍是谜一般的存在。该公司一方面以开源其人工智能技术为荣,另一方面却对其内部运作或发展意图守口如瓶。它在公开论文中披露了其研究的极其具体的细节,但却不愿提供有关其人工智能构建的总体成本、当前GPU的构成或数据来源的基本信息。
梁文锋本人长期以来一直以不爱交际而闻名,以至于中国人工智能领域的一些领军人物私下称他为“技术疯子”,这类词汇一般用于形容那些有着巨大野心的古怪企业家。过去10个月里,他没有接受过任何一次媒体采访,也很少有人知道他的长相,直到最近出席一场政府会议时,其戴着眼镜、略显稚气的面容出现在照片上。梁文锋和他的同事们没有回应记者多次提出的置评请求,只有一位员工的自动回复称,该请求正在处理中:“感谢您对DeepSeek的关注和支持!”邮件中写道。
为了进一步了解该公司的运作方式以及它如何契合了中国更广泛的人工智能发展目标,《彭博商业周刊》(Bloomberg Businessweek)采访了梁文锋的11名前雇员,以及30多位接近中国人工智能行业的分析师、风险投资家和高管。
由于缺乏公开的对外形象,像Anthropic CEO达里奥·阿莫迪(Dario Amodei)和OpenAI CEO萨姆·奥尔特曼(Sam Altman)这样的批评者在舆论中占据了上风,他们的指控在美国听众中很有共鸣,因为后者本身就倾向于把中国科技视为一种神秘的威胁。不过,即使是对DeepSeek持警惕态度的人,如今也不得不正视其AI技术的强大实力。Perplexity AI公司首席商务官德米特里·舍韦连科(Dmitry Shevelenko)表示,他的公司里没有任何人曾成功与DeepSeek方面取得联系。但即便如此,Perplexity仍然采用了DeepSeek的技术,部署在美国和欧洲的服务器上。该模型被Perplexity命名为“R1 1776”(美国建国年份),舍韦连科称这是对“自由”的致敬。“我们并不知道DeepSeek的真正动机是什么,”他说,“它有点像个黑箱。”
——————————
事实上,DeepSeek早就预见到其人工智能技术可能会在海外引发担忧。在2024年3月英伟达开发者大会上,DeepSeek的深度学习研究员Deli Chen在一场并未引起太多关注的线上演讲中提出,大型语言模型应该与价值观“解耦”,以适应不同社会的文化背景。在一页逻辑清晰的演示文稿上,Chen展示了一个可以定制伦理标准的DeepSeek原型系统。这个系统允许开发者通过点击按钮,自由设定赌博、安乐死、性工作、枪支拥有、大麻、代孕等议题的合法性。“他们只需选择符合自身需求的选项,就能获得专门为其价值体系打造的模型服务。”Chen解释说。
寻找这种高效的解决方案一直是DeepSeek文化的常态。 2000年代中期,梁文锋和他的朋友们在浙江大学钻研了各种技术领域——机器学习、信号处理、电子工程等等,为了寻求刺激(当然,也是为了赚钱),还在全球金融危机期间开发了股票交易计算机程序。
毕业后,梁文锋继续独自开发量化交易系统,积累了一笔小财富。之后,他与几位杭州的大学时期的友人联手,在2015年创立了后来被称为“幻方量化”的公司。
公司早期的招聘广告曾自豪地宣称,他们能吸引来自谷歌和Facebook的顶尖人才,并寻找具有情景喜剧《生活大爆炸》(The Big Bang Theory)主角谢尔顿(Sheldon)那样“古怪才华”的数学和编程“极客” 。他们承诺提供免费零食、Herman Miller座椅、扑克之夜、以及鼓励穿T恤和拖鞋的办公室文化,此外,还有一丝金融科技圈“兄弟文化”的味道,比如提供与“可爱温柔的90后女孩”和“从华尔街回归的犀利女神”共事的机会。
与DeepSeek一样,幻方量化也营造了一种神秘感——其第一条社交媒体帖子将梁文锋称为“L先生”——同时致力于某种“我来证明给你看”的透明度。每周五,幻方量化都会在中国超级应用微信上发布其10只原始基金的业绩图表。直到2016年夏天,该公司才仅向注册投资者提供每周数据,在此之前,该投资组合的平均年化回报率为35%。
最终,数十亿美元资金流入了幻方量化管理的投资组合,其投资和研究团队的员工人数也增加到100多人。梁文锋于2019年开始积极招募人工智能部门的人才,旨在挖掘庞大的数据集,以发现被低估的股票、高频交易的微小价格波动以及特定行业投资者所忽略的宏观趋势。到新冠疫情爆发之初,他和他的团队已经构建了一个由互联处理器协同运行的高性能计算系统,即所谓的“集群”。幻方量化表示,为了打造这个集群,他们采购了1000块英伟达2080Ti芯片(游戏玩家和3D艺术家常用的芯片),以及另外100块Volta系列GPU。(Volta GPU,又名 V100,是英伟达首款专为 AI 优化的处理器。)幻方量化之前规模较小的计算架构训练一个新的经济分析模型需要两个月的时间,而其新设备只需不到四天就能完成同样的任务。
这些金融模型令人印象深刻,但规模仍远小于 OpenAI 等美国公司正在构建的通用模型。梁文锋力求建造一台规模更大的超级计算机,该计算机将由英伟达当时新款的 A100 GPU(V100 的升级版)组成。一位参与该项目的幻方量化的前工程师表示,梁文锋是这个不断扩展的计算集群的“最大用户”,估计用于开发模型的80% 的计算机处理能力都分配给了他的用户名。这位前工程师表示,梁文锋似乎对深度学习非常痴迷,称其为“他的昂贵爱好”。对于一家量化公司来说,在这样的AI基础设施上投入数亿美元可能有些过头,但梁文锋已经创造了足够的利润来承担这笔费用。 “对于当时的梁文锋来说,这只是小钱,”这位工程师回忆说,“算力越强、模型越完善、交易收益就越高。”
至少他们是这么希望的。在2021年12月致股东的一封信中,当时管理着约141亿美元资产的幻方量化就一系列令人失望的回报表示道歉。公司将业绩下滑归咎于其人工智能系统,称其系统虽然做出了明智的选股决策,但在疫情引发的市场波动中,未能精准把握退出时机。即便如此,该公司仍然决定加倍投入人工智能。2022年1月,幻方量化在社交媒体上发布消息称,它已经积累了5000块英伟达A100芯片,每块通常售价数万美元。3月,公司宣布该集群已扩展至1万块芯片。仅仅六个月后,英伟达就警告称,美国新的限制措施可能会影响此类芯片对华出口。
英伟达CEO黄仁勋曾表示,美国对中国的过度监管只会激励后者在创新上超越阻碍
目前尚不清楚这些基础设施最终有多少是用于量化交易,又有多少属于梁文锋的昂贵爱好。第二年春天,在OpenAI推出ChatGPT大约五个月后,他将DeepSeek分拆为独立的研究实验室。在杭州和北京的独立办公室里,金融不再是重点。在一份未署名宣言中,幻方量化誓言要摒弃平庸,解决人工智能革命中最艰巨的挑战。其终极目标是通用人工智能(AGI)。
2023年全年,DeepSeek实验室都在马不停蹄地开发人工智能代码助手、通用知识聊天机器人和文本转3D艺术生成器。梁文锋从幻方量化抽调工程师,并从微软北京办公室以及中国领先的科技公司和大学招募了更多人才。在攻读博士学位之前,刘波(Bo “Benjamin” Liu)在同年9月以学生研究员的身份加入实验室。他表示,梁文锋经常把一些在其他地方会分配给高级员工的重要工作交给实习生。 “就拿我来说吧,我刚到公司的时候,没人在做RLHF基础设施”——支持“人类反馈强化学习”(RLHF)这一重要技术所需的基础设施——“所以他就让我做了,”刘波说,“他会信任你去做没人做过的事。”(这种信任也为DeepSeek带来了另一个好处:它给实习生的日薪相当于140美元,每月还有420美元的住房补贴,这在中国属于优厚待遇,但仅为美国人工智能公司实习生薪酬的三分之一,也只是硅谷全职工程师薪酬的零头。)
据两位前DeepSeek研究人员称,梁文锋很早就对”稀疏性”技术押下重注。这是一种通过将大语言模型拆解为专业模块来提高其训练和运行效率的技术。当用户向最原始的ChatGPT提问时,无论你问的是“ 2+2等于几”还是“如何制作馅饼”,它的整个大语言模型都会被激活,以确定理想的答案。相比之下,稀疏模型会更好地利用资源,因为它会被划分成“专家模块”,只有与特定查询相关的模块才会被激活。
稀疏化方法可以大幅节省计算成本,但复杂性极高。如果一个问题没有被足够多的“大脑回路”处理,或者被发送到错误的“脑区”,答案的质量就会下降。 (例如,负责数学的大脑模块知道如何在公式中使用π,但不知道馅饼的配方里包含什么。)梁文锋从谷歌和法国独角兽公司Mistral那里看到了这一领域的进展。Mistral于2023年12月发布了一个稀疏模型,该模型被划分为八个专家模块,每个查询都会根据上下文激活其中最相关的两个模块。他召集团队设计包含更多专家模块的模型,而这种技术可能会增加人工智能“幻觉”,并导致人工智能的知识体系碎片化。“这引发了内部的激烈争论。”这位前DeepSeek员工说。
随后,DeepSeek接连取得更多突破,每一次都是公开发布,并越来越引起中国同行的关注。2024年末,DeepSeek发布了V3,这是一个通用人工智能模型,其规模比Meta Platforms Inc.的同类模型(当时是最大的开源大语言模型)大了约65%。但真正引起谷歌、OpenAI和微软高管注意的,是一篇篇幅较长的V3研究论文,该论文大约是在DeepSeek凭借其R1推理模型引起广泛关注的一个月前发表的。文件中出现了一个令人震惊的统计数据:DeepSeek暗示,V3的整体开发成本仅为560万美元。这笔钱很可能仅指最后阶段的训练——一个将模型先前原型转化为完整产品的数据优化过程——但许多人将其理解为整个项目的总预算,觉得这个数字低得离谱。相比之下,最先进的前沿模型的累积训练成本可能高达1亿美元甚至更多。Anthropic的阿莫代伊在DeepSeek崛起之前甚至预测,下一代模型的训练成本将在100亿美元到1000亿美元之间。
负责大型语言模型排名的热门人工智能平台Hugging Face Inc.的研究主管莱安德罗·冯·韦拉(Leandro von Werra) 说,DeepSeek的“架构创新”并非其模型最引人注目之处。他从其研究论文中得到的最大启示是,DeepSeek肯定开发了高质量的数据——要么是从网络上巧妙地清理而来,要么是通过其他方式提取的——才能让V3得以实现。“如果没有非常强大的数据集,模型的性能就会不足,” 冯·韦拉说,“从报告中可以清楚地看出,DeepSeek拥有目前最好的大型语言模型训练数据集之一。可惜的是,在50页的报告中,关于数据集的内容只有半页。”
DeepSeek之所以能快速取得进展,是因为梁文锋将开源精神视为其核心理念。他认为,隐藏专有技术并对强大的模型收费——包括OpenAI和谷歌在内的美国顶尖实验室采取的做法——是把短期利益置于长期的成功之上。让DeepSeek的模型完全向公众开放,并且基本上免费,是加速其技术普及、吸引初创公司和研究人员在其技术上进行开发的最有效途径。DeepSeek希望此举能够形成产品消费与反馈之间的飞轮效应。正如DeepSeek在近两年前发布其首个大语言模型时引用开源操作系统Linux发明者的话所说:“别光说不练,拿出代码。”(Talk is cheap, show me the code.)
——————————
4月的一个多云的周日,在繁忙的杭州萧山国际机场,迎接抵达旅客的是宣传阿里巴巴、字节跳动和华为人工智能服务的数字广告牌。在现代化的航站楼内,一个蓝色头发的人形机器人挥手欢迎乘客。航站楼外,一家自动驾驶汽车初创公司正在测试用于在停机坪周围运输货物的小型自动驾驶卡车。尽管DeepSeek备受瞩目,但西方人似乎忘了,它只是众多在中国硅谷崛起的人工智能“小龙”之一。
仅在杭州这座拥有1250万人口的特大城市,DeepSeek就是被誉为“六小龙”的顶尖科技初创公司之一。在风景秀丽的西湖区,有一家炙手可热的工作室——游戏科学(Game Science),这家工作室开发了畅销动作游戏《黑神话:悟空》,该游戏因使用机器学习技术让计算机角色更加逼真而备受赞誉。不远处还有两家机器人领域的头部企业,以及一家专注于3D空间软件的独角兽公司。浙江强脑科技有限公司也在附近,该公司被视为中国版的Neuralink ,源自华裔博士生韩璧丞在哈佛大学孵化的初创项目。目前,该公司位于杭州的附属实验室正在开发仿生肢体和脑机接口技术。
强脑科技的一款人工智能驱动义手目前正在杭州另一个新兴科技中心——中国人工智能小镇的展览中心展出。据一位参加过展会的人士透露,最近几周,强脑科技的负责人一直在现场讲解展示。参观者常常表示出投资意愿,但显然这些“最强大脑”们似乎并不急于寻求外部资金支持。一位参加过展会的基金经理说,“他们基本上不缺钱。现在‘六小龙’这么火,大家都在抢着给他们砸钱。”
“六小龙”其实并不“小”。市值3000亿美元的阿里巴巴集团的主园区是一处拥有私人湖泊的庞大地产,位于杭州西湖以西约40分钟车程处。该公司最近承诺在未来三年内投资530亿美元建设更多人工智能数据中心,据称其最新的Qwen3旗舰机型的性能和成本效率可与DeepSeek相媲美。在中国以外,阿里巴巴通常被认为是一家电商公司,但实际上,其扩张速度更快的人工智能和云计算部门已于2022年被分拆至杭州郊区的一个独立园区。在阿里巴巴的会议室里,大屏幕上播放着“行业洞察快讯”,每72小时更新一次,详细介绍DeepSeek和OpenAI等竞争对手的最新成果。甚至连洗手间里也有每周更新的版本,提醒着如厕的人们,人工智能的竞赛从未停歇。
今年4月,近年来几乎销声匿迹的阿里巴巴联合创始人马云,再次出现在公司园区,庆祝其云计算部门成立15周年。据几位目睹了马云讲话的人士透露,在难得一见的演讲中,他表示,他希望人工智能服务于人类,而不是主宰人类。香港和东京办公室的员工也观看了直播。
这提醒人们,像马云这样的科技巨星似乎重新获得了青睐,梁文锋这样的后起之秀也在展露头角——即便美国科技领袖的光环逐渐褪色。中国正在证明自己能够克服西方的种种障碍。驻香港的政策咨询公司Asia Group LLC董事总经理乔治·陈(George Chen)表示,中国顶尖工程师在苹果、谷歌、微软和其他领先公司工作后,现在已经开始回国。虽然特朗普政府的敌意是其中一部分原因,但他们也感受到真正的机会可能正在转向东方。“硅谷现在对中国人才的吸引力没那么大了。”陈说。
另一只中国独角兽01.A1的创始人李开复的观点则更进一步。 作为曾在苹果、谷歌和微软工作过的资深人士,李开复表示,下一代人才不再像他那样先进入美国公司,然后再回国创业。 “这些年轻的人工智能工程师大多数都是本土培养的,”他说, “DeepSeek的成功以及其他新的AI初创公司的成功,正在激励更多的年轻人才加入中国的AI复兴。”
——————————
今天在中国,没有一家科技公司能像DeepSeek那样唤起人们心中的自豪感。 4月,27岁的加拿大计算机科学家柯比·冯(Kirby Fung)与家人一起来杭州旅游,参观了梁文锋的母校浙江大学。 冯曾在这里参加过交流项目,他想向他的祖父母和弟弟展示他曾在梁文锋的学校学习。 “向我在加拿大的朋友解释 DeepSeek 的创始人跟我上过同一所学校真的很酷。”冯说。 游客和社交媒体的网红们也经常来到Deepseek的总部打卡,该总部位于四座大楼组成的综合体中,俯瞰中国著名的大运河。
游客们在当地商店寻找梁文锋的身影,包括DeepSeek大楼内的一个高档火锅店,工作人员有时会在这里吃饭。(女服务员不得不告诉游客,梁文锋从没光顾过。)
了解梁文锋的人说,他往返于杭州和DeepSeek的北京办公室之间。北京办公室位于本地科技园一座玻璃写字楼的五楼。 在那里,二十多岁的程序员在可升降办公桌前埋头苦干,茶水间里堆满了能量饮料、康师傅方便面和辣条。 那里有一块白板,员工可以在上面写下希望补充的零食清单。 “我在那里吃了几个月的午餐和晚餐,结果胖了不少。”一位最近离职的研究员说。
梁文锋很少接受外部会议的邀请,即使答应了,也可能以全息投影的形式出现。 他拒绝了今年在巴黎举行的极具影响力的“人工智能行动峰会”的邀请,该峰会吸引了OpenAI的奥特曼、Alphabet Inc.和谷歌的首席执行官桑达尔·皮查伊(Sundar Pichai) 以及多位国家总理和总统出席。
中国在庆祝DeepSeek的崛起,而美国则像面对一种突然出现在水源中的陌生生物一样,对其进行检视,试图判断它究竟是良性的还是恶性的。批评者指责DeepSeek受中国政府控制,从美国竞争对手那里盗取训练数据,并可能参与了某种更大的行动,意在破坏硅谷在人工智能领域的主导地位。“DeepSeek不仅威胁到美国公民的隐私,也危及国家安全。”美国国会一个负责调查DeepSeek的委员会发言人说。
而DeepSeek则一直在努力将自己塑造成一个典型的热门创业公司。它在今年2月的一篇X平台(前Twitter)帖子中称自己是“纯粹车库创业能量”的产物。毕竟,它的办公室和谷歌在同一个北京园区内,附近还有一家汉堡王和两家Tim Hortons。整个AI行业直到最近才注意到DeepSeek,并不意味着它背后就一定有不可告人的秘密。“AI圈没能预见到DeepSeek的出现,”风投公司Alpha Intelligence Capital的合伙人阿诺·巴特勒米说,该公司投资了OpenAI和商汤科技,“他们本该预见到的。”
巴特勒米认为,从DeepSeek身上真正能学到的经验是,中国科技公司是如何把自身所面临的种种限制转化为优势的。“中国有很多聪明的人才,在计算资源有限的情况下做出了许多聪明的创新。”他说。
事实上,在DeepSeek成立的同一个月,即2023年5月,英伟达CEO黄仁勋在接受《彭博商业周刊》采访时曾表示,美国对中国的过度监管只会激励它在创新上超越那些试图阻碍它的人。他强调,将经济影响力作为国家安全工具虽然有效,但政府干预带来的意外后果将非常严重。“剥夺全球三分之一科技市场的参与权,其后果一定是灾难性的,”他在谈到限制美国对中国出口技术的风险时说,“他们会在没有竞争的情况下蓬勃发展。他们会发展壮大,然后把技术出口到欧洲、东南亚。”
“你必须谨慎对待推动竞争的尺度,”黄仁勋接着说,“一旦超过某个临界点,反应就会变得非常不可预测。那些一无所有的人,往往会以令人意想不到的方式做出回应。”
DeepSeek的故事中,仍有一个关键部分存在争议:它到底花了多少钱来训练模型。一份被广泛引用的报告中,美国研究公司SemiAnalysis估算,幻方量化和DeepSeek可能使用了大约5万块英伟达顶级H系列GPU,价值约14亿美元,而这些GPU的大多数都没有公开。SemiAnalysis指出,这些基础设施主要由符合出口规定的GPU构成。(美国允许英伟达向中国出售一些经过性能限制修改、以符合白宫规定的芯片,例如H20和H800。)但该咨询公司还称,DeepSeek获得了额外1万块英伟达的尖端H100芯片,而这种芯片是美国政府禁止向中国出售的。
对此,三名前员工坚决否认,称DeepSeek的GPU总数不到2万块,而且主要是旧款英伟达芯片以及部分受出口管制的产品。“他们在散布谎言,”正在读博的刘波说,他指的是SemiAnalysis。该研究公司则表示坚持其报告内容。
但有一点是没有争议的:如果能获得美国科技公司那种规模的计算能力,DeepSeek当然会欣然接受。它似乎也很有信心能比硅谷更高效地使用这些资源。“现实是,大型语言模型研究人员对算力的渴求极大——如果我有几万块H系列GPU,可能也会变得浪费,跑很多严格来说并不必要的实验。”一位前DeepSeek员工说。但获取更多资源的问题是中国科技人员愿意去应对的。“真希望我们中国公司有朝一日也能有5万块GPU。”那位离职的研究员说。他后来加入了北京另一家开源AI实验室。“想看看我们那时候能做到什么吗?”编辑/陈佳靖