灵魂拷问：如果AI真能造出10x工程师，那“软件洪水”在哪儿呢？

来源：凤凰网 7 小时前

编者按：满世界都在谈AI提效，但全球软件发布量为何毫无波澜？文章来自编译。

我快气炸了，愤怒到想推倒别人的沙堡，朝丹尼尔·拉鲁索脸上来一拳，还要当着他女朋友的面狠狠羞辱他！

我通常不怎么生气，但我实在受不了所在行业正在发生的那些破事。

我从事软件开发已经25年了，如果算上早年在那琥珀色单色屏幕上做市场调研制表的日子，甚至可能接近28年。没错，我算是老了——一个人到中年的编程书呆子。不管好坏，我的人生与个人身份早已和“编程”紧紧绑定。我靠着发布出色产品时那股多巴胺的冲击而活着。

我曾经是AI编程的早期采用者，也是它的忠实粉丝，直到大约两个月前，我读到METR的那份研究报告，突然产生了强烈的怀疑。研究中指出，开发者对自己生产效率的感知其实并不可靠：他们自以为AI帮自己提速了20%，但实际上却慢了19%。这个结果让我大吃一惊——因为就在一周之前，我还跟别人说，感觉AI只让我快了25%左右，甚至还在为这个数字不够高而有点沮丧。而我的误估，与那些开发者的实际误差只相差5%。

这事儿让我感到不安。我无法不质疑自己对经历的叙述是否可靠。我是否被屏幕上飞速闪过，以至于无法量化的代码所蒙蔽了：阅读和审查所有这些代码，是否从一开始就比我自己动手做要花费更多的时间？

于是，我开始用那项研究的改良方法来测试自己的生产力。去接个任务，估算一下如果我“手写”代码需要多长时间，然后我抛个硬币，正面朝上我就用 AI，反面朝上我就自己做。然后我会记录开始和结束的时间。这样我就能得到一个“差值”（delta），我可以用这个差值来画出“使用 AI”与“不使用 AI”的对比图表，然后我就可以看到一些趋势。这件事情我连续做了六周，记录了所有数据，你们猜我发现了什么？

我发现，这些数据在任何有意义的层面上都不具备统计显著性。我需要再记录四个月的新数据点，才能证明 AI 到底是在让我提速还是在拖慢我。但目前情况实在是太均势了。

不过，两组之间缺乏差异性这一点真的很有趣。是，这个样本局限性很大，可能纯属巧合，但到目前为止，AI 似乎让我的速度中位数下降了 21%，这与 METR 的研究结果完全一致。我可以明确地说，使用 AI 编程工具，我没有看到速度有任何的大幅提升（比如 2 倍）。如果真有那么快，结果早就该具有统计显著性，这项研究也该结束了。

这实在是太令人失望了。

我多希望 AI 编程的梦想是真的。我希望能把我所有愚蠢的编程点子都变成现实。我希望我能周一做个指板学习应用，周三做个韩语训练器，周六再做个电子游戏。我会把它们全都发布出去。我会用一场前所未见的“铲件”洪水淹没这个世界。好吧，我本可以这样做的——如果这玩意儿真的有用的话。

但事实证明，（而且我为此收集了大量数据）它不仅对我没用，它对*任何*人都没用，而且我将要证明这一点。

但首先，我们先来看看这些关于生产力的宣传是多么极端和普遍。Cursor 的宣传语是“为你带来非凡的生产力。” Claude Code 的是“更快地开发更好的软件。” GitHub Copilot 的是“像老板一样分配任务。” 谷歌声称他们的大语言模型让开发者的速度快了 25%。OpenAI 也对他们自己的编码效率和研究进行了夸大其词的宣传。而开发者同行们也好不到哪里去，有 14% 的人声称他们因为 AI 实现了 10 倍的产出增长。

像老板一样分配任务

—— GitHub Copilot

如果这个话题不那么要命的话，这些宣传本无关紧要。但各地的技术领袖们都在为这种“错失恐惧症”（FOMO）买单，他们深信竞争对手们正在获得他们所错过的巨大利益。这驱使他们将公司重塑为“AI 优先”的公司，用新发现的生产力叙事来为裁员辩护，并想当然地认为 AI 已经从根本上改变了价值等式，从而压低开发人员的薪水。

然而，尽管这些工具的普及程度达到了前所未有的地步，它们却根本没用。

我的论点是：如果这么多开发者在使用这些工具后生产力变得如此非凡，那么“铲件”洪水又在哪里呢？我们应该看到各种形态和规模的应用、电子游戏、新网站、移动app、SaaS 应用——我们应该被淹没在选择的海洋中。我们应该正处在一场独立软件革命的浪潮之中才对。我们应该在 Steam 上看到 10000 个《俄罗斯方块》的克隆版。

试想一下：凭借你对 AI 辅助编程及其广泛应用的所有了解，如果我给你看全球新软件发布的图表，你预期那图表的曲线会是什么形状？你肯定以为会看到一条随着 AI 被采用、人们产出更多而“指数级增长、一路扶摇直上”的曲线吧？

现在，我花了好几周和一大笔钱来为这篇文章整理数据，在某些情况下处理了数十 TB 的数据。所以我希望你们能体会到，在软件开发的每一个主要领域，这些图表是显得多么的平淡无奇、一马平川。

来源：Statista

Verisign《域名行业简报》

来源：SteamDB

我花了 70 美元用 BigQuery 处理数据才做出了这张图。数据来源：GH Archive

这些图表最有趣的地方在于它们没有展现出什么东西。它们没有显示出突然的飙升或“曲棍球棒式”的增长曲线。曲线充其量只能算持平。没有出现“铲件”的激增。在 2022/2023 年之后，并没有突然出现独立（软件）的繁荣。光看这些图表，你根本看不出 AI 辅助编程是什么时候开始被广泛采用的。那个（AI提升效率的）核心前提是有缺陷的。根本没人交付出更多的东西了。

这对大家生活的影响巨大。有人因为采用这些工具不够快而被解雇。有人因为害怕跳槽到别处情况会更糟，而被迫留在自己不喜欢的工作岗位上。人们花费所有时间试图掌握“提示词技巧”（prompting），又因为自己做不好而感觉很糟糕。

这整件事纯属扯淡。

所以，如果你是一名开发者，并且正感受到来自你的经理、同行或整个行业歇斯底里的压力，被迫去使用这些工具——请相信你的直觉。如果这些工具让你觉得很笨重，如果它们正在拖慢你的速度，如果你搞不懂为什么其他人能（用它们）变得那么高效，（别怀疑）你没毛病。数据支持你正在经历的一切。坚持使用你所熟知的、有效的方法，你并没有落后。如果你胆子够大，把这些图表给你的经理看，问问他们对此有什么看法。

如果说这篇文章能告诉你点什么的话，那应该是：(A) 开发者们交付的东西并不比以往更多（这是唯一重要的指标），以及 (B) 如果有人——无论是你的 CEO、你的技术主管，还是某个 Reddit 上的书呆子——声称他们因为 AI 而成为了“10 倍”开发者，那几乎可以肯定是假的，（你该）要求他们拿出证据，否则就他x的闭嘴。

好了，我太懂互联网了。我甚至在你们这帮傻瓜开口之前，就知道你们要说什么，所以我们就开门见山吧：

1、“呃，如果你学会了怎么正确地写‘提示’，你就会像我一样成为 10 x工程师了。”

看看数据吧。根本没有新的“10 x哥”出现。如果真有——如果那 14% 自称的 AI“10 x哥”真的是效率提高 10 倍的话——那全球新软件的产出将会翻倍还不止。然而这并没有发生。至于你，就你个人而言，把你今年开发的 30 个应用拿给我看看。拿不出证据，我懒得跟你废话。

2、“呃，这是项新技术，投资了这么多，它需要时间……”

是的，数十亿美元已经投给了这些工具。未来还会有数十亿美元继续投给它们。问题是，它们现在正被（当作成品）售卖，相关的决策也正在制定中——这些可是实实在在地影响着大家的生活——就好像它们今天已经（完美）可用了一样。别跟我鹦鹉学舌般地重复“它还在开发中”之类的废话。现在是 2025 年 9 月，我们用这些工具已经好几年了，它们仍然烂透了。也许有一天，它们会不那么烂，但我们最好能看到客观的证据，证明它们在*大规模*地“实际交付产品”方面产生了影响。

3、“呃，也许它现在是不怎么样，但如果你不尽早采用，你就会被甩在后面。”

没有任何迹象表明“提示词工程”很难学。Github Copilot 自己都说，一开始，用户只接受 29% 的代码提示建议（这本身就是一种效率低下的疯狂宣言，你为什么要公布这个？），但有了六个月的经验后，用户自然会更擅长写提示词，这个数字会增长到*高达* 34% 的接受率。显然，6 个月的经验只会让你在提示词编写方面进步 5%。

4、“呃，也许是质量在提高，但交付速度未必变快了……”

这根本说不通。我们都知道，在代码质量方面，这个行业至少倒退了十年。现在几乎没人做测试了。我上一次听到“持续改进”或“测试驱动开发”这些词，还是在新冠疫情之前。你我心知肚明，如果真有工具能让人成为 10 x程序员，我们早就被“铲件”淹没了。

5、“呃，这都是网站驱动的，现在人们不怎么关心域名了；都是 Vercel 这类网站上的子域名。”

闭嘴吧。人们可喜欢用自己的“自恋域名”了。

6、“呃，.ai 域名今年可是增长了 47%……”

是啊，那是因为所有的创业公司都转型去做 AI 了。这是从投资者的“错失恐惧症”中榨取资金的唯一途径。但是，域名*总量*是否以前所未有的速度增长了呢？不，并没有。去看看那张新域名图表吧。

7、“呃，如果你是个真正的工程师，你就会知道，软件开发的大部分工作都不是写代码。”

这只在大型公司里才成立。当你单干时，当你既是利益相关者又是开发者时，你根本不用开会。你是在告诉我，现在再也没有人*独立*交付任何东西了吗？再也没有人为了满足个人“小癖好”而发布新的 GitHub 项目了吗？开发软件怎么可能不涉及代码呢？

译者：boxi。