AI研究员田渊栋：“AI顿悟”的真相、大模型如何学会压缩世界

来源：36kr 8 小时前

Meta首席执行官马克·扎克伯格近日批准了一项涉及约600名员工的AI部门裁员计划，这是Meta今年在人工智能领域规模最大的一次调整，主要波及公司核心研发机构。

时任Meta FAIR团队负责人的田渊栋在社交媒体X上证实：“我和我的部分团队成员也受到此次裁员影响”。Meta FAIR作为“超智能实验室”（MSL）科研体系中的核心支柱之一。田渊栋的离开也引发业界的广泛关注。

在此消息公布后，田渊栋首次公开露面，接受了腾讯科技特约作者「课代表立正」的独家深度访谈。

面对行业中的质疑，田渊栋在此做出澄清和“正名” ：他的团队在Meta大模型开发中也做出了大量贡献和重要工作。然而，他们面临的最大的挑战并非技术本身，而是如何说服产品团队。

随后，访谈重心转向了田渊栋的近期研究成果，着重探讨了有关AI大模型的“顿悟（Grokking）”。

“Grokking”，这个词源自科幻作家罗伯特·海因莱因，意指对事物本质的深刻理解。大语言模型的高分不意味着智慧。真正的临界点，是它第一次学会“思考”的那一刻。

今年9月，田渊栋发表了一篇独立论文指出，Grokking不是神秘涌现，而是可计算的能量景观动力学（Energy Landscape）。

论文标题：Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
论文链接：arxiv.org/abs/2509.21519

田渊栋的研究揭示了AI学习的核心突破：在群运算任务中，任务复杂度为M（如词汇量或概念数），传统认为模型需穷举M²种组合才能学会规律，数据需求随M平方增长。而他以严格数学证明，模型仅需O(M log M)个样本即可实现泛化——近乎线性增长。以M=1000为例，以往需百万级样本，而新理论仅约7000个。

这意味着，AI无需“看遍世界”式的暴力学习，也能像人类一样，从极少样本中顿悟深层结构，为数据受限时代的高效训练提供了理论依据。

在这场访谈中，田渊栋解读Grokking的研究，揭示了其中AI学习的关键：大模型如何从“记忆式拟合”跃迁到“结构化泛化”的内在机制。

此外，田渊栋在访谈中透露，AI对这篇论文的贡献也很大，其中的一些思考是他和GPT-5进行对话后产生的。田渊栋调侃道：“这听起来有点像self-play（自娱自乐）。不过在对话的过程中，需要给它一些insight（洞察）和思考，它才会有不一样的输出”。

本次访谈的核心观点如下：

Grokking揭示了从记忆到泛化的数学机制，从记忆到泛化不是神秘涌现，而是优化动力学：数据不足时“记忆峰”占优，数据增多时“泛化峰”升高，一旦泛化峰略高，参数集体翻越，产生顿悟现象。
表征学习是所有智能能力的基础。无论是思维链推理，还是直觉判断，其根本都取决于模型如何“表示”与“理解”世界。正如数学归纳法取代穷举那样，真正的飞跃源于表征方式的改变。
Loss Function（损失函数）只是优化的代理信号，其作用是生成合适的梯度流，引导表征朝正确方向更新。不同损失函数若诱导出相似的梯度结构，就能学到近似的表征。目标函数本身并非目的，而是优化的“可计算代理”。
黑盒 Scaling 强调堆参数、调配置，短期高效；机制理解则追求解释与结构，长期天花板更高。当数据触顶、样本稀缺时，Scaling Law 失效，唯有机理导向的改进才能突破局限。
泛化的本质是让模型学会“压缩”世界：从冗余的记忆中提炼出可重复使用的结构。真正的理解有两个标准：一是能在新情形下给出正确答案；二是能将复杂问题还原为简洁、通用的逻辑。当证据与归纳偏置（Inductive Bias）相互强化到临界点时，模型就会“跨峰”，进入泛化状态。

以下为完整版访谈内容，腾讯科技在不改变原意的情况下进行了精编整理：

01、Meta裁员事件后的澄清：为团队正名

课代表立正：最近看到了一些关于你（离开 Meta）的消息。

田渊栋：是的，现在算是比较“自由”吧，可以做任何想做的事情了。

课代表立正：恭喜！我是在准备这次访谈的时候才注意到，你已经在 Meta 工作了整整十年。当初你加入 Meta 的时候，大概有多少人？

田渊栋：我加入的时候大概有一万多人。

课代表立正：其实那个时候 Meta 也不算是小公司了。我记得它是2012年上市的？

田渊栋：对，现在应该大约近8万人左右。

课代表立正：我们今天的访谈可以从你的论文聊起，也可以顺便聊聊最近的一些动向。

田渊栋：都可以，我更愿意聊论文。我之所以近期会在 X平台（原Twitter）上发声，是因为看到有人站出来猜测和质疑，是否是因为没有做出公司预期的成果。对此我必须要为我的团队澄清一下：我们团队做了很多非常重要的工作，不能把责任推到我们身上。这一点必须说清楚。

课代表立正：那么，团队在大模型训练的过程中具体发挥了哪些关键作用？

田渊栋：我们团队率先发现了预训练模型设计中存在的chunk attention等关键问题，并推动了解决方案的落地，有效提升了long-context RL的稳定性。另外贡献还包括数据集生成和评测，RL基础设施的构建和优化，等等。

此外，对于大模型架构中存在的一些设计问题，我们也和公司侧的多个团队进行了深入沟通。一开始沟通很困难，因为他们认为这些问题不严重，甚至觉得根本不是问题。

虽然我当时是作为研究团队加入 Meta 的，而负责大模型具体开发的团队，自然更相信他们自己的判断。所以我们只能通过大量的实验去验证，用数据和结果来证明我们的判断和洞察是正确的。最终，事实也确实证明这些问题是存在的，他们才真正接受我们的结论。这整个过程，其实就体现了我们团队的重要价值。

此外，我们也攻克了不少在大模型训练中的不少难题。比如：如何让上下文长度训练（long context length training）更加稳定。这个过程解决了训练中常见的 blow up（训练崩溃）问题。虽然这些技术成果最终没有直接体现在官方版本（official release）中，但它们确实为后续的模型研发打下了坚实的基础。

可以说，我们团队更像是“幕后英雄”，没有站在聚光灯下，但在关键环节起到了承上启下、夯实底层的作用。

02、研究员的核心价值是洞察力，但真正的难点是说服别人

课代表立正：您刚才提到的问题中，我有两方面想进一步了解：

第一，作为研究团队，你们并没有被完全信任，是因为缺乏训练大模型的直接经验，还是有其他方面的原因？沟通时接触的大模型团队是怎样的？他们自身是否有丰富的大模型训练经历？

第二，你们在接触到大模型的产品能力后，为什么能迅速发现问题？

田渊栋：他们的整体经验确实非常丰富。但在某些实验中出现了程序错误（bug），由此做出了错误判断。我们这边虽然没有直接参与超大模型的训练，但一直在做大模型相关的研究，也发表过不少论文。

我本人曾做过 Sparse Attention（稀疏注意力）相关的研究，对注意力结构的机制与意义相对熟悉，因此，一看到一些设计细节，就立刻判断出其中的问题。

当然，这种判断并不是我独有，很多研究者都能察觉问题。但真正的难点在于如何说服别人。我们需要花很多时间和精力去解释、论证这些问题的存在，通常要等到对方团队在内部自查时也意识到问题的严重性，态度才会开始转变。

课代表立正：换句话说，尽管没有直接训练超大模型，但研究过程中的直觉与经验依然能帮助你们快速定位问题、判断偏差并提出修正方向。

田渊栋：是的。这就是研究员的核心价值所在：即便在“数据点稀疏”的情况下，也能推断出关键结论，并将其迁移应用到更复杂的问题上。相反，如果一个人没有 insight（洞察），只会不断地跑实验、调参数，那这样的工作是非常容易被替代的。研究员的优势在于：在有限信号下识别结构性问题，从而避免大量无效计算与资源浪费。

课代表立正：你刚才提到“稀疏的数据点”。这里具体是指什么？是来自不同论文或实验的零散结果吗？

田渊栋：可以这么理解。比如说一位新手可能需要跑一万组实验，得到一万个数值，但这些数据是“死”的——缺乏结构性分析与总结。

而一个有经验的人，看到二十个甚至十个点，甚至只是观察到一部分 training curve（训练曲线），就能判断这个路线是否行得通，从而及时止损并调整方向。

这也是为什么 AI 研究员通常薪资较高：一个真正高质量的“洞察（insight）”，可能就能节省上百、上千甚至上万张 GPU 卡的试错成本。GPU 当然重要，它能支撑更大规模的实验、带来更多观察机会；但 insight 和算力是互补的。

课代表立正：你刚才用了两个词，一个是经验（experience），一个是洞察（insight）。我想深入探讨一下这个问题：你认为到底什么是洞察能力（insight）？有些人认为这是品味（taste），有些人说是直觉（intuition），你怎么看？

田渊栋：我们需要通过对话与追问，去观察一个人是如何思考问题的。我举一个例子：在 PhD qualifier（博士资格考试）中，老师们会围绕某个主题（例如偏微分方程）不断追问，直到考生能清晰地解释关键概念之间的联系，并用最简洁的语言表述“两个最核心要素的关系”。

如果一个人只能背出定义、却说不清其中的原理，比如什么时候 A→B、什么时候 A→C，那说明他还没有形成真正可迁移的 mental model（心理模型）。做研究最忌讳的就是“概念套概念”，而没有掌握它们之间的关系与使用条件。

当前的大语言模型也普遍缺乏这种能力——在“极少数据”的条件下进行稳健外推。这恰恰是人类仍然在某些认知任务中占据优势的地方。

03、“顿悟”如何发生

课代表立正：这也呼应了我想和你对话的初衷——你的研究重点之一正是 Grokking：解释模型如何从“记忆式拟合”跃迁到“结构化泛化”。你的论文就是围绕这一机制展开的。

田渊栋：对。Grokking 提供了一条观察“从不可压缩到可压缩表示”的动力学路径（dynamics）。理解这条路径，有助于我们在数据与算力受限的环境中，用更少的样本与更可靠的训练信号，获得可泛化的表示与更强的模型。

课代表立正：你刚才提到的“顿悟”并非只是某个具体任务层面的能力，而是更底层的机制：在某个时间点，模型完成了一次表示的重组，就像“学会了”某件事。

我有关注到你此前的专访，以及我与Denny Zhou在 X平台上关于 chain-of-thought（思维链）的讨论中，也探讨过类似的现象。从理论上讲，如果逻辑链条能够被完整表达，那么 chain-of-thought 应该是可以求解的；

但现实中，模型往往需要大量数据去逼近解，而人类却能在瞬间抓住要点。这种差异似乎与刚才所说的那种底层机制相关。如果要给这种能力下定义，你会倾向称之为 reasoning（推理能力），还是另有所指？

田渊栋：更准确地说，它发生在 reasoning 或其他任务之下的“共同底层”机制，那就是 representation learning（表征学习）。

随着训练推进，模型的表征会不断演化。一开始更像是死记硬背；但随着足够的积累和联结，结构会突然“贯通”，从而出现类似“读书百遍，其义自见”的转折点。比如说在小学生的教育中，老师可能会先要求他们背诵一些知识，过段时间通过新的知识联结，原本模糊的含义逐渐显现，这就是顿悟的一部分。

课代表立正：也就是说，无论是 chain-of-thought 还是直觉判断，其实最终都依赖于“我如何表示、如何理解这个世界”这一底层机制？

田渊栋：对。比如，小学生可能解题靠穷举；而进入初高中后，引入了数学归纳法，仅靠简洁的证明就能覆盖无限情形，这种方法背后的“表示”就发生了根本性变化。神经网络的学习关键差异，也正体现在表征方式上。

04、两种研究路径：Scaling Law与机制理解，选择更困难的后者

指神经网络通过寻找能拟合训练数据的“最短程序”（最简洁的模型），从而实现最好的泛化能力图片来源：课代表立正

课代表立正： Ilya Sutskever在 2016 年 MIT 的演讲里提过两个问题：为什么反向传播能起作用？以及理论上最优的假设空间是否等价于简洁程序（short programs）。那你的意思是不是说——模型原本要走许多路径，但突然找到了更高效的联系，实现了压缩，从而获得更强的泛化能力？

田渊栋： 对，“压缩”是一个通俗但恰当的说法。不过，目前我们仍不清楚——什么时候可以压缩，什么时候不行。

这正是研究 Grokking 的意义所在：它提供了一条动力学路径，展示系统如何从“不可压缩”状态过渡到“可压缩”状态。

指AI通过模式匹配（连线）将散乱的信息转化为结构化的知识，从而能够应用已知规律解决未知问题。图片来源：课代表立正

课代表立正： 这听起来和人类的知识学习非常相似。我们也是通过“信息的连接”形成知识。

教育心理学认为最重要的是先验知识（prior knowledge）——新的信息只有与旧的经验建立联系，才能形成理解。但无论在人脑还是大模型中，我们都不清楚这些“连接”究竟是如何形成的。也许理解这一过程，就能抓住下一代模型的关键契机？

田渊栋： 完全正确。现在主要有两种研究路径：一种是把系统当成黑盒，用“scaling law（规模定律）”去堆参数、试配置；另一种是“打开机器”，理解其内部机制，然后带着直觉去调参数。

目前黑盒方法更主流，见效快、成本低；但要真正理解模型的工作原理，就必须走后一条更艰难的路。

课代表立正： 为什么黑盒方法更占上风？是不是因为即使我们“打开”了，人类也依然难以判断里面到底发生了什么？

田渊栋： 是的。这就是为什么要建立一个更高层次的整体理解框架——去统摄不同学习范式的共性。我做 Grokking 这篇论文的目的，正是尝试构建这样的框架。

短期来看，黑盒路线依然高效；但从长期来看，理解机制的那条路天花板更高。

05、Grokking：从记忆跃迁到泛化的数学机制

课代表立正：黑盒路径之所以占主流，也因为即使“打开”模型，人类也很难判断其内部到底发生了什么。因此，能否建立一个足以统摄多种学习范式的“大框架”变得很关键——这也是你们把 Grokking 作为正式论文（paper）发布的原因？

田渊栋：对。我们希望通过系统性研究，建立起更大的理解框架，从而为未来的改进指明方向。

课代表立正：我再引入一个相关讨论。我们常常从人类学习中汲取灵感。

现在有两个派系，Rich Sutton 强调，强化学习（Reinforcement Learning, RL）才是更贴近人类的学习方式，因为它拥有明确的目标函数（objective）；而另一派代表（如 Hinton）认为，经验不仅来自物理互动，语言也能有效传递经验。

这场争论的核心是：人类如何学习？什么是学习？人类是如何生成新知识并 connect the dots 的？你个人更倾向哪种猜想？

田渊栋：我赞同“通过经验学习”的观点，但更重要的问题是：“哪种经验更有价值？”有一种观点强调，必须有 embodiment（身体化经验），也就是“行万里路”“亲身体验”“感受情绪”等，才能形成真正深刻的表示；另一种观点则认为抽象概念也可以通过语言传递被学习。其实这两者并不冲突。我们追求的是高质量的 representation（表征）——这种表征能够支撑预测、支持泛化。

表征是如何形成的，关键在于输入的丰富性及其结构。直观经验和抽象概念可以混合输入，只要最终能产出高质量、可泛化的表征即可。这个比例不一定非黑即白，可以是一半一半，也可以是三分之一对三分之二，关键在于能否形成有用的认知结构。

06、从黑盒试验到机制理解，打开系统才能抬高模型上限

课代表立正：回到“打开模型”这条路，它的现实意义是什么？是更高效率的学习，还是在同样的知识里学到“新的东西”？当数据见顶时，效率的边际价值似乎有限。

田渊栋：恰恰相反，数据见顶时更需要对机器的理解。如果训练 token 总量对于大众领域已足够，但对于小众领域样本稀缺，且训练算法“费数据”，模型就容易停留在记忆（memorization）而非泛化（generalization）层面。

此时仅靠 scaling law（扩展法则）可能就会失效。你可以做 data augmentation（数据增强），但如果你对模型的机理有更深入的理解，或许可以通过改进训练算法或架构本身，在少样本的情况下学到更合适的表示。

课代表立正：从大模型的生成过程来看，inference（推理）期间产生的新 token 更像是记忆还是泛化？

田渊栋：这要视情境而定，通常是两者的混合。任务种类丰富且覆盖多样组合时，更可能学到稳健的表示并实现泛化。材料越多，见到的组合越广，就越有可能形成对未见组合也有效的表征。所谓“真正理解”，一方面体现在能对新情形给出正确答案；另一方面则体现在能够将问题还原为更简单、可广泛适用的逻辑。

这两点加在一起，就构成了我们对“泛化”的一种可操作性定义。相反，若某一领域数据稀缺、结构难以捕捉，模型往往只能“死记硬背”，在训练集上的错误率尚可，但难以推广至新的样本。

课代表立正：当 scaling law 在数据受限的情况下边际效益递减，而机理导向的范式能在样本稀缺处提升“可压缩的表示”，是否意味着后者将在“高难度、小样本、结构强”的场景中显示出决定性优势？

田渊栋：这是我的判断。短期来看，黑盒方法扩大规模依旧高效；但从长期来看，打开系统并理解表示形成与迁移的动力学，才有可能真正抬高模型的能力上限。

07、从压缩性走向解释力：泛化的终极价值

课代表立正：如何更形式化地解释“从记忆到泛化”的跃迁？很多人将其视为神秘的“emergence”（涌现）。

田渊栋：我们可以通过“多峰非凸优化”（multi-modal non-convex optimization）的图景来理解。不同的表征对应着不同的“山峰”（局部最优解）。数据分布决定山峰的高低：当数据不足时，“记忆峰”更高；当数据增多且结构更清晰时，“泛化峰”会升高，“记忆峰”则下降。

优化过程会趋向更高的山峰；一旦“泛化峰”略高，参数便会集体“翻越”，呈现出“顿悟（grokking）”现象。这是一条清晰的数学路径，并非神秘跳变。

课代表立正：是否可以理解为：泛化的正确表征一直潜伏在数据中，只是我们以前未曾发现或未予重视？随着数据点的增多，其价值被凸显，我们才开始重视？

田渊栋：可以这样理解，但前提是该结构确实存在，并且数据量足以让它的优势显著到可以“打败”记忆式的解。在证据不足时，“记下来”更划算；而证据充足时，泛化结构因更简洁、更稳健而自然占优。

课代表立正：这引出了评价与奖励的问题。预训练阶段主要使用 next-token prediction（下一词预测）；那么在后训练阶段，如何促成更强的泛化？又该如何避免 reward hacking（奖励机制被规避）？

田渊栋：预训练的损失函数相对稳定，比如预测下一个词等。而后训练阶段的“玩法”则丰富得多：可以在强化学习（Reinforcement Learning）的训练中设定不同的value/reward（价值/奖励）或 rubric（评分标准）；也可以引入 chain-of-thought（思维链），让中间步骤经得起检验，以此抑制“走捷径”的现象（比如选择题盲猜）。不同方向的优化会分别强化模型的不同能力维度。

课代表立正：你提到“优雅（elegance）/压缩”的倾向。这种倾向存在于 reward function（奖励函数）中吗？

田渊栋：它更像是训练过程中的隐式偏置（implicit bias）：在众多可行解释中，优化算法倾向于选择更简洁、更具压缩性的表示，这与我们对“优雅”的直觉是契合的。这并不是一个显式的目标项，而是由优化过程和归纳偏置（inductive bias）诱导出的学习方向，从而提升了表示的质量和泛化能力。

08、loss function只是“代理信号”，不是目的

课代表立正：你曾提到我们定义的 loss function，并不是我们真正想优化的目标，而是它的一个“代理函数（surrogate objective），这个观点该如何理解？

田渊栋：损失函数的核心作用，是生成合适的梯度流（gradient flow），以推动表示朝“正确方向”更新。不同的损失函数可以诱导出相似的梯度结构，从而学到相似的表征。

目标函数本身并非“终极目的”，而是为可学习的优化路径提供一种可计算的代理信号。很多表征学习中的目标函数，拆解后本质上都是不同形式的反向传播（backpropagation）梯度。只要梯度结构相近，哪怕换一种损失函数，学到的表征也会很接近。

课代表立正：可以将“梯度”想象为等高线图上最陡的下降方向，而这些等高线最终勾勒出的就是对世界规律的刻画。

田渊栋：这个比喻非常贴切。我们沿着等高线行进，寻找能够统一解释更多现象且更简洁的结构；当证据与归纳偏置协同达到一定程度时，模型就会“跨峰”进入可泛化的表示状态。表面上看是“顿悟”，实际上是优化动力学的自然结果。

课代表立正：回到“记忆与泛化”的关系。给模型更多“记忆材料”，是否会提高泛化的可能性？

田渊栋：在许多任务中确实如此。看到的组合越多，模型就越能学到稳健的表征，这种表征对未见过的组合也具备预测能力，这就是泛化。真正的“理解”往往表现为方法论能力的提升，能在新情境下，用少量且简单的逻辑统一解释更多现象，并能推广到更多场景。

课代表立正：如果数据很少，模型学不到好的表征，会发生什么？

田渊栋：它会倾向于记忆式学习，以满足训练误差的目标；但一旦超出训练集范围，错误率就会上升，人们往往会将其归因于过拟合或记忆主导。

09、未来方向：在小样本稀疏世界中实现“结构性迁移”

课代表立正：当 scaling law 因数据瓶颈而失效时，除了 data augmentation，还有哪些方向可以尝试？

田渊栋：可以基于机理理解来改进训练算法或模型架构，以降低“费数据”的特性，使优化过程更容易抵达“泛化峰”。这在小众领域尤为重要，因为每个子域的数据“坑”很小，常规的数据扩充手段难以奏效。

课代表立正：能否用一个直观的比喻来帮助理解？

田渊栋：可以把大语言模型看作极度勤奋、算力极强的“读书人”。读够了三百万首唐诗后，它开始作诗：不是靠背诵，而是穷尽其规律，并形成可以评估与自我提升的“方法”。

另一种路径则像发现数学公式那样，直接“跃迁”到背后的规律本身。比如，阿基米德发现浮力定律的过程其实包含两步：第一，穷举大量可能；第二，能立刻意识到“这个是对的”。而机器目前仍难以在“立刻意识到对的”这一步做到像人类一样高效。

再比如，地心说和日心说都能预测行星位置，但日心说更简洁优雅；一旦我们采用日心说，轨道变为简单的椭圆形，我们就会立刻意识到这是更好、更接近真实与美的解释。这种“优雅/压缩”的倾向，也是在训练过程中由隐式偏置自然诱导出来的。

课代表立正：在 loss function 之上，是否还存在一层更隐含的“reward”？

田渊栋：可以这么说。训练过程中的隐式偏置确实会引导模型自然地发现更优美、更具压缩性的解释，从而学到更好的表征和更强的泛化能力。所有损失函数本质上都是代理，目的是产生有效的梯度流，推动表征朝正确方向收敛；至于它们的具体形式，其实不如梯度结构本身重要。

课代表立正：我明白了。等高线的比喻也确实有助于理解：我们沿着可计算的代理信号走向更优的解释；当“泛化峰”略高于“记忆峰”时，模型的参数整体迁移，表现出“顿悟（grokking）”现象。但这个“等高线”的逻辑，其实是大家经常使用的比喻。不过，它忽略了神经网络本身的结构特性。

田渊栋：是的。这个比喻把整个 loss landscape（损失地形）看作是高维空间中的山峰，而每个山峰实际上对应的是神经网络参数空间中的一种表示结构。因此，我们不能只看山峰的形状，还需要关注这些结构与网络本身之间的关系。

课代表立正：换句话说，梯度在山峰上的变化，其实是通过每个神经元的梯度路径来实现的？

田渊栋：对。如果你能将梯度方向映射回神经网络中每组参数、每一层神经元，就能观察到哪些模块学到了什么样的表征。这个过程虽然较为复杂和细节化，但非常有助于我们从直觉上理解 representation learning（表示学习）的底层机制。

10、人机协作新范式：AI正在成为科研中的“共创者”

课代表立正：您刚提到研究范式的变化，现在您怎么看AI在科研中的角色？

田渊栋：研究范式的探索非常重要，我们也要与时俱进。不可能仍用过去的方式做研究。未来也许我们会拥有“AI Scientist”，或者我自己写一套Agent框架，来协助完成研究。

课代表立正：这听起来很有意思。

田渊栋：实际上，这篇关于 Grokking 的论文，一些思考是和GPT-5进行对话后产生的。虽然有点像 “self-play（自娱自乐）”，不过在对话的过程中，需要给它一些insight（洞察）和思考，它才会有不一样的输出。

课代表立正： 不过我注意到，那篇论文是您独立署名的？

田渊栋：是的。因为会议投稿不允许将大语言模型列为作者。但我在文中注明，我们大量使用了AI：我给模型想法，让它去论证、推导、再发现问题。它常常是错的，但偶尔能提出很有启发性的见解，帮助我把一个模糊的想法细化为可执行的研究过程。

课代表立正： 我也有类似体会。我曾与GPT的o1-pro讨论过比如关于量子力学的一些研究，感觉AI能帮助我整理思路，但写不出像您这样有“顿悟感”的论文。

田渊栋：这里的关键是，真正重要的 insight 仍需人类提供。AI可能会出现“卡壳”，绕着概念兜圈子，说不到本质。这就像一个“新来的博士生”，话很多，却抓不住核心。

课代表立正： 这确实是个普遍问题。

田渊栋：所以需要研究者去总结、提炼、引导。AI可以被“训练”，但还不具备判断“讲清楚”的美感。而“讲清楚”本身就是一种极高层次的能力，很难被建模成 loss function。

课代表立正： 的确，我们要先学会自己讲清楚，再去要求模型做到。

田渊栋：没错。这种“讲清楚”的能力，蕴含着理解的深度与美感。如何让模型具备这样的能力，可能是下一个值得探索的科学问题。

课代表立正： 听完这段，我更深刻地体会到AI对研究方式的改变。它不仅是工具，更是一面镜子，让我们重新思考什么是理解、什么是清晰表达。通过这篇论文，我们其实也在探讨人类与AI如何共同进化的过程。