灵魂拷问:如果AI真能造出10x工程师,那“软件洪水”在哪儿呢?
来源:凤凰网 7 小时前

编者按:满世界都在谈AI提效,但全球软件发布量为何毫无波澜?文章来自编译。

我快气炸了,愤怒到想推倒别人的沙堡,朝丹尼尔·拉鲁索脸上来一拳,还要当着他女朋友的面狠狠羞辱他!

我通常不怎么生气,但我实在受不了所在行业正在发生的那些破事。

我从事软件开发已经25年了,如果算上早年在那琥珀色单色屏幕上做市场调研制表的日子,甚至可能接近28年。没错,我算是老了——一个人到中年的编程书呆子。不管好坏,我的人生与个人身份早已和“编程”紧紧绑定。我靠着发布出色产品时那股多巴胺的冲击而活着。

我曾经是AI编程的早期采用者,也是它的忠实粉丝,直到大约两个月前,我读到METR的那份研究报告,突然产生了强烈的怀疑。研究中指出,开发者对自己生产效率的感知其实并不可靠:他们自以为AI帮自己提速了20%,但实际上却慢了19%。这个结果让我大吃一惊——因为就在一周之前,我还跟别人说,感觉AI只让我快了25%左右,甚至还在为这个数字不够高而有点沮丧。而我的误估,与那些开发者的实际误差只相差5%。

这事儿让我感到不安。我无法不质疑自己对经历的叙述是否可靠。我是否被屏幕上飞速闪过,以至于无法量化的代码所蒙蔽了:阅读和审查所有这些代码,是否从一开始就比我自己动手做要花费更多的时间?

于是,我开始用那项研究的改良方法来测试自己的生产力。去接个任务,估算一下如果我“手写”代码需要多长时间,然后我抛个硬币,正面朝上我就用 AI,反面朝上我就自己做。然后我会记录开始和结束的时间。这样我就能得到一个“差值”(delta),我可以用这个差值来画出“使用 AI”与“不使用 AI”的对比图表,然后我就可以看到一些趋势。这件事情我连续做了六周,记录了所有数据,你们猜我发现了什么?

我发现,这些数据在任何有意义的层面上都不具备统计显著性。我需要再记录四个月的新数据点,才能证明 AI 到底是在让我提速还是在拖慢我。但目前情况实在是太均势了。

不过,两组之间缺乏差异性这一点真的很有趣。是,这个样本局限性很大,可能纯属巧合,但到目前为止,AI 似乎让我的速度中位数下降了 21%,这与 METR 的研究结果完全一致。我可以明确地说,使用 AI 编程工具,我没有看到速度有任何的大幅提升(比如 2 倍)。如果真有那么快,结果早就该具有统计显著性,这项研究也该结束了。

这实在是太令人失望了。

我多希望 AI 编程的梦想是真的。我希望能把我所有愚蠢的编程点子都变成现实。我希望我能周一做个指板学习应用,周三做个韩语训练器,周六再做个电子游戏。我会把它们全都发布出去。我会用一场前所未见的“铲件”洪水淹没这个世界。好吧,我本可以这样做的——如果这玩意儿真的有用的话。

但事实证明,(而且我为此收集了大量数据)它不仅对我没用,它对*任何*人都没用,而且我将要证明这一点。

但首先,我们先来看看这些关于生产力的宣传是多么极端和普遍。Cursor 的宣传语是“为你带来非凡的生产力。” Claude Code 的是“更快地开发更好的软件。” GitHub Copilot 的是“像老板一样分配任务。” 谷歌声称他们的大语言模型让开发者的速度快了 25%。OpenAI 也对他们自己的编码效率和研究进行了夸大其词的宣传。而开发者同行们也好不到哪里去,有 14% 的人声称他们因为 AI 实现了 10 倍的产出增长。

像老板一样分配任务

—— GitHub Copilot

如果这个话题不那么要命的话,这些宣传本无关紧要。但各地的技术领袖们都在为这种“错失恐惧症”(FOMO)买单,他们深信竞争对手们正在获得他们所错过的巨大利益。这驱使他们将公司重塑为“AI 优先”的公司,用新发现的生产力叙事来为裁员辩护,并想当然地认为 AI 已经从根本上改变了价值等式,从而压低开发人员的薪水。

然而,尽管这些工具的普及程度达到了前所未有的地步,它们却根本没用。

我的论点是:如果这么多开发者在使用这些工具后生产力变得如此非凡,那么“铲件”洪水又在哪里呢?我们应该看到各种形态和规模的应用、电子游戏、新网站、移动app、SaaS 应用——我们应该被淹没在选择的海洋中。我们应该正处在一场独立软件革命的浪潮之中才对。我们应该在 Steam 上看到 10000 个《俄罗斯方块》的克隆版。

试想一下:凭借你对 AI 辅助编程及其广泛应用的所有了解,如果我给你看全球新软件发布的图表,你预期那图表的曲线会是什么形状?你肯定以为会看到一条随着 AI 被采用、人们产出更多而“指数级增长、一路扶摇直上”的曲线吧?

现在,我花了好几周和一大笔钱来为这篇文章整理数据,在某些情况下处理了数十 TB 的数据。所以我希望你们能体会到,在软件开发的每一个主要领域,这些图表是显得多么的平淡无奇、一马平川。

来源:Statista

来源:Statista

Verisign《域名行业简报》

来源:SteamDB

我花了 70 美元用 BigQuery 处理数据才做出了这张图。数据来源:GH Archive

这些图表最有趣的地方在于它们没有展现出什么东西。它们没有显示出突然的飙升或“曲棍球棒式”的增长曲线。曲线充其量只能算持平。没有出现“铲件”的激增。在 2022/2023 年之后,并没有突然出现独立(软件)的繁荣。光看这些图表,你根本看不出 AI 辅助编程是什么时候开始被广泛采用的。那个(AI提升效率的)核心前提是有缺陷的。根本没人交付出更多的东西了。

这对大家生活的影响巨大。有人因为采用这些工具不够快而被解雇。有人因为害怕跳槽到别处情况会更糟,而被迫留在自己不喜欢的工作岗位上。人们花费所有时间试图掌握“提示词技巧”(prompting),又因为自己做不好而感觉很糟糕。

这整件事纯属扯淡。

所以,如果你是一名开发者,并且正感受到来自你的经理、同行或整个行业歇斯底里的压力,被迫去使用这些工具——请相信你的直觉。如果这些工具让你觉得很笨重,如果它们正在拖慢你的速度,如果你搞不懂为什么其他人能(用它们)变得那么高效,(别怀疑)你没毛病。数据支持你正在经历的一切。坚持使用你所熟知的、有效的方法,你并没有落后。如果你胆子够大,把这些图表给你的经理看,问问他们对此有什么看法。

如果说这篇文章能告诉你点什么的话,那应该是:(A) 开发者们交付的东西并不比以往更多(这是唯一重要的指标),以及 (B) 如果有人——无论是你的 CEO、你的技术主管,还是某个 Reddit 上的书呆子——声称他们因为 AI 而成为了“10 倍”开发者,那几乎可以肯定是假的,(你该)要求他们拿出证据,否则就他x的闭嘴。

好了,我太懂互联网了。我甚至在你们这帮傻瓜开口之前,就知道你们要说什么,所以我们就开门见山吧:

1、“呃,如果你学会了怎么正确地写‘提示’,你就会像我一样成为 10 x工程师了。”

看看数据吧。根本没有新的“10 x哥”出现。如果真有——如果那 14% 自称的 AI“10 x哥”真的是效率提高 10 倍的话——那全球新软件的产出将会翻倍还不止。然而这并没有发生。至于你,就你个人而言,把你今年开发的 30 个应用拿给我看看。拿不出证据,我懒得跟你废话。

2、“呃,这是项新技术,投资了这么多,它需要时间……”

是的,数十亿美元已经投给了这些工具。未来还会有数十亿美元继续投给它们。问题是,它们现在正被(当作成品)售卖,相关的决策也正在制定中——这些可是实实在在地影响着大家的生活——就好像它们今天已经(完美)可用了一样。别跟我鹦鹉学舌般地重复“它还在开发中”之类的废话。现在是 2025 年 9 月,我们用这些工具已经好几年了,它们仍然烂透了。也许有一天,它们会不那么烂,但我们最好能看到客观的证据,证明它们在*大规模*地“实际交付产品”方面产生了影响。

3、“呃,也许它现在是不怎么样,但如果你不尽早采用,你就会被甩在后面。”

没有任何迹象表明“提示词工程”很难学。Github Copilot 自己都说,一开始,用户只接受 29% 的代码提示建议(这本身就是一种效率低下的疯狂宣言,你为什么要公布这个?),但有了六个月的经验后,用户自然会更擅长写提示词,这个数字会增长到*高达* 34% 的接受率。显然,6 个月的经验只会让你在提示词编写方面进步 5%。

4、“呃,也许是质量在提高,但交付速度未必变快了……”

这根本说不通。我们都知道,在代码质量方面,这个行业至少倒退了十年。现在几乎没人做测试了。我上一次听到“持续改进”或“测试驱动开发”这些词,还是在新冠疫情之前。你我心知肚明,如果真有工具能让人成为 10 x程序员,我们早就被“铲件”淹没了。

5、“呃,这都是网站驱动的,现在人们不怎么关心域名了;都是 Vercel 这类网站上的子域名。”

闭嘴吧。人们可喜欢用自己的“自恋域名”了。

6、“呃,.ai 域名今年可是增长了 47%……”

是啊,那是因为所有的创业公司都转型去做 AI 了。这是从投资者的“错失恐惧症”中榨取资金的唯一途径。但是,域名*总量*是否以前所未有的速度增长了呢?不,并没有。去看看那张新域名图表吧。

7、“呃,如果你是个真正的工程师,你就会知道,软件开发的大部分工作都不是写代码。”

这只在大型公司里才成立。当你单干时,当你既是利益相关者又是开发者时,你根本不用开会。你是在告诉我,现在再也没有人*独立*交付任何东西了吗?再也没有人为了满足个人“小癖好”而发布新的 GitHub 项目了吗?开发软件怎么可能不涉及代码呢?

译者:boxi。

简体中文 English