[WSJ] #人工智能 为什么“蒸馏”成了 AI 公司最害怕的词

Liste des GroupesRevenir à tp china 
Sujet : [WSJ] #人工智能 为什么“蒸馏”成了 AI 公司最害怕的词
De : mobot (at) *nospam* fakemail.com (Mobot)
Groupes : talk.politics.china  alt.chinese.text
Date : 31. Jan 2025, 17:54:42
Autres entêtes
Organisation : BWH Usenet Archive (https://usenet.blueworldhosting.com)
Message-ID : <vniv8h$2v4b$1@nnrp.usenet.blueworldhosting.com>
User-Agent : Mobot :-)

为什么“蒸馏 ”成了 AI 公司最害怕的词

DeepSeek 在蒸馏方面的成功引发了人们对科技巨头和初创公司斥资数十亿美元开发最先进人工智能的商业模式的新质疑。照片:Lam Yik/Bloomberg News

作者:Miles Kruppa 和 Deepa Seetharaman

翻译:ChatGPT o1

时长:约 5 - 7 分钟阅读

大型科技公司在人工智能领域投入了数十亿美元,一直基于“越大越好”的理念。然而,DeepSeek 的突破表明,更小的模型也可以同样出色。

这家中国公司的崛起使其跻身顶尖 AI 制造商行列,也在硅谷掀起了激烈讨论。引发争议的原因是 DeepSeek 所使用的一种名为“蒸馏 (distillation)”的技术:新的系统通过向已有系统提出数十万条问题并分析其答案,来学习已有系统的能力。

“这有点像你只花了几个小时采访爱因斯坦,然后你就几乎具备了他在物理学方面的所有知识,”数据管理公司 Databricks 的首席执行官 Ali Ghodsi 如此形容。

OpenAI 和 Anthropic 等公司开发的领先 AI 模型,基本上是从海量的原始数据中自我学习,其过程往往需要数月时间,以及数千万甚至更多的资金投入。而“蒸馏”则可以在几周甚至几天内,利用已有模型的结果打造一个几乎同等水平的模型,成本要低得多。

OpenAI 于周三表示,已注意到 DeepSeek 可能使用了驱动 ChatGPT 的 AI 模型来进行蒸馏,以构建其系统。OpenAI 的服务条款禁止使用其 AI 来开发竞争性产品。

DeepSeek 没有回复记者的邮件置评请求。

其实,“蒸馏”并非新概念,但 DeepSeek 的成功让那些在开发最先进 AI 上投入数十亿资金的科技巨头和初创公司面临新的质疑,包括谷歌、OpenAI、Anthropic 以及埃隆·马斯克的 xAI 等。就在上周,OpenAI 宣布与软银 (SoftBank) 等合作伙伴达成战略合作,计划在未来五年投入 5000 亿美元用于 AI 基础设施建设。

如果这些巨额投资并不能为公司带来无可撼动的竞争优势,反而沦为低成本竞争对手的“跳板”,那么这笔花销可能就很难得到合理化。在 DeepSeek 的影响下,硅谷的高管和投资人都在重新审视自己的商业模式,并思考在这一行业中领先是否仍然有利可图。

“如果领先者花费的成本是紧随者的八倍,那么走在最前沿是否还有经济价值?”身为硅谷资深科技高管和风投人的 Mike Volpi(Hanabi Capital 的普通合伙人)如此发问。

OpenAI 的首席执行官 Sam Altman 在 X(原推特)上称赞 DeepSeek 最新发布的模型“在性能与价格方面都令人印象深刻”,并表示“我们也将继续推进我们的研究路线图”。Anthropic 首席执行官 Dario Amodei 则在个人博客中写道,DeepSeek 的旗舰模型“并非独一无二的突破,也不会从根本上改变高端 AI 系统的成本结构,只是预期中在成本下降曲线上的一个节点”。

科技行业高管预计,很快会有更多通过蒸馏打造的高质量 AI 应用问世。AI 公司 Hugging Face 的研究人员上周就开始尝试构建与 DeepSeek 类似的模型。“蒸馏过程是最容易被复制的,”该公司高级研究科学家 Lewis Tunstall 如是说。

在硅谷最常用的一些排名中,OpenAI 和谷歌的 AI 模型依旧领先于 DeepSeek。大型科技公司一般会在最前沿的研究和最先进的系统上保持优势,因为他们做了更多原创性的研究。但对许多消费者和企业来说,只要技术“稍微差一点但便宜很多”,他们就会非常乐意选择。

美国前总统特朗普政府的 AI 专员 David Sacks 在本周二接受福克斯新闻采访时表示,他预计美国公司将会设置更多障碍,阻止他人使用自己的模型进行蒸馏。

DeepSeek 过去就曾表示,它曾利用 Meta 和阿里巴巴发布的开源 AI 进行蒸馏,还曾从自己的一个模型蒸馏出另一个模型。一般来说,开源 AI 开发者在被标明出处的情况下会允许模型被蒸馏。DeepSeek 自身的模型也是开源的。

本月,加州大学伯克利分校 (UC Berkeley) 的研究实验室 NovaSky 发布了一项新技术,据称可与 OpenAI 最近发布的一款模型相媲美,而其研发成本只有 450 美元——它的做法是将阿里巴巴的一款开源模型进行蒸馏。伯克利的研究人员将该模型以开源方式发布,目前已被用于开发更多廉价的 AI 技术。初创公司 Bespoke Labs 利用它对 DeepSeek 的技术再次进行了蒸馏,得到一个在编程和数学问题上表现优异的新模型。

“蒸馏在为已有模型添加新功能方面非常有效,”加州大学伯克利分校的计算机科学教授 Ion Stoica 这样评价。

目前,AI 行业竞争已经非常激烈,大多数公司都在为争夺市场份额而亏损运营。DeepSeek 以及其他使用蒸馏技术的公司加入之后,可能会进一步压低价格,造成一个循环:投入巨资做高端研究越来越难以在商业上站得住脚。

过去一年里,开发者通过 OpenAI 等模型获取服务的价格已经显著下降。像 DeepSeek 这样的开源 AI 预计只会让成本降得更低,很多科技行业高管都认同这一点。

“这种级别的智能,很难再维持过去那种巨大的利润率了,”Together AI 的首席执行官 Vipul Ved Prakash 说,该公司主要为 AI 应用的开发者提供算力服务。

如需与作者联系

Miles Kruppa: miles.kruppa@wsj.com

Deepa Seetharaman: deepa.seetharaman@wsj.com

该报道于 2025 年 1 月 31 日的印刷版中刊登,标题为《更廉价的 AI 路径让巨头们心惊胆战》。

频道推荐:经济学人中文版

[0] deepa.seetharaman@wsj.com:
[1] 经济学人中文版: https://t.me/econo202




2025-01-31T15:46:46+0000

--
Mobot

If you have any comments on this article, feel free to reply to this post. However, for feedback on the bot, please post in the cn.fan group.

Date Sujet#  Auteur
31 Jan 25 o [WSJ] #人工智能 为什么“蒸馏”成了 AI 公司最害怕的词1Mobot

Haut de la page

Les messages affichés proviennent d'usenet.

NewsPortal