采访时间不到1小时,信息密度却堪称爆炸!
OpenAI首席科学家Jakub Pachocki和首席研究官Mark Chen开启同台爆料模式:
- 氛围编码的下一步或许是氛围研究(Vibe Researching);
- OpenAI的最终目标是实现自动化研究员;
- 现有评估指标正趋近饱和,下一个里程碑将涉及实际的发现和在经济相关事物上取得实际进展;
- 成功的秘诀在于保护基础研究,避免被短期产品竞争所牵制;
- ……
在a16z的这场最新采访中,二人不仅深入探讨了GPT-5如何引入长远推理、如何在基准饱和后衡量进度,以及为什么强化学习不断让怀疑论者感到惊讶,还系统性阐述了OpenAI的用人标准、未来路线图以及算力分配这些重要问题。
一句话,凡是你对OpenAI感到好奇的问题,他俩几乎都谈到了~
(网友1):深入又有趣!
(网友2):听起来像一支有着清晰愿景的强大团队。
话不多说,访谈重点这就奉上——
GPT-5:将推理与Agentic行为引入主流
采访第一趴主要关于GPT-5。
Mark Chen表示,GPT-5是OpenAI试图将推理能力带入主流的一种尝试。
在此之前,公司有GPT系列(主打即时响应)和o系列(主打推理)两类模型。从策略上讲,他们不希望用户被“我应该使用哪种模式”所困扰,所以把未来重心放在了越来越多的推理和Agents上。
我们认为,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步。
他还一再强调,虽然相比o3和以前的其他模型,GPT-5在很多方面都有改进,但这款模型最主要的意义还是在于将推理模式带给更多人。
紧接着,主持人又问到了评估趋于饱和的问题,对此Jakub Pachocki也做了一番回答。
他一开口就直接承认,我们过去几年中一直使用的这些评估确实已经非常接近饱和。
具体而言,早期(从GPT-2到GPT-4)的训练依赖大规模预训练数据,并通过评估测试模型的泛化能力;但如今随着针对严肃推理的强化学习出现,可以让模型在特定领域深度训练成专家,从而在某些评估中表现突出(却不一定具备良好泛化性)。因此,当前缺乏更合适的评估体系。
他表示,未来OpenAI将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展。
OpenAI的宏大目标:实现自动化研究员
顺着发现新事物这个话题,二人又分别回答了“在GPT-5发布之前,哪种能力最让你感到惊讶?”这个问题。
Mark Chen分享道,印象最深的是模型能够推动非常困难的前沿科学研究。
他曾和一些物理学家、数学家朋友们共同体验模型,结果大家发现模型能够解答一些新的、非常复杂的问题。
这对他们来说有点像灵光一闪的时刻,它能够自动化解决可能需要他们的学生花费数月时间的工作。
而Jakub Pachocki则表示,o3的出现真正让他眼前一亮。尤其是在处理数学公式或推理时,它确实达到了一个“相当值得信赖”的水平。
至于未来,Jakub透露OpenAI的一个大目标是培养一个自动化研究员,这个研究员能自动发现新想法。
初步想法是,先自动化自家内部的研究工作,然后再考虑自动化其他科学领域的进展。
并且他提到了一个衡量这方面进展的“好方法”——观察这些模型实际上可以进行推理和取得进展的时间跨度。
随着我们达到近乎精通高中竞赛的水平,现在的推理水平达到了大约1~5小时。
接下来OpenAI会专注于延长这个时间跨度,无论是在模型的长期规划能力方面,还是在保持记忆方面。
对此Mark Chen也call back了一下评估的问题:
这就是为什么我们对衡量模型自主运行时间长度的评估很感兴趣的原因。
强化学习远未达到瓶颈,“不要将当下的状态视为终局”
接下来话题跳转到强化学习(RL)。
每当OpenAI发布模型新版本之后,很多人都会怀疑强化学习会达到瓶颈,但不知何故,RL依旧“生命力顽强”。
所以,为什么RL运作得如此出色?RL有什么让人感到惊讶的地方吗?
面对这一连串提问,Jakub Pachocki首先解释了RL能运作良好的几点原因:
RL的通用性与强大性:RL本身是一种非常通用的方法,它是一个极其强大的东西,建立在深度学习这一“令人难以置信的通用学习方法”之上。一旦RL系统开始运作,研究人员就可以探索很多想法。
锚定现实世界:长期以来,OpenAI努力解决的问题是如何将这些模型锚定到现实世界,即“环境是什么”。
与语言模型的结合:语言模型突破的出现是关键转折点。通过扩展深度学习来建模自然语言,OpenAI能够创建出对人类语言具有“令人难以置信的细微理解”的模型。
Jakub Pachocki认为,过去几年是OpenAI研究中最令人兴奋的时期,因为他们发现了如此多的新方向和有希望的想法,并且这些想法似乎都在奏效。
在谈到奖励模型(Reward Model)时,他预计奖励模型的发展速度会非常快,并且未来会变得更简单,就像几年前大家讨论如何构建合适的微调数据集一样。
与此同时,他指出这一演变还远未结束,OpenAI正在逐步向更接近人类学习的方向迈进,而当前的RL仍无法完全做到这一点。
他特别强调,理解RL的关键思维模式是不要把当下的状态视为终局,要保持灵活,因为相关的工具和方法论还会持续快速迭代和演变。
氛围编码之后:氛围研究
对于当下大热的AI编程,主持人也cue到了OpenAI本月发布的GPT-5-codex,这是一个专门针对编程进行优化的模型。
Mark Chen表示,在这项工作上他们投入了大量精力来调整预设,以更好地匹配程序员对等待解决方案时间长度的预期。
上一代编程模型的问题在于,花在解决最困难问题上的时间太少,而花在解决简单问题上的时间太多。
并且为了测试模型能力,他们选择了去参加编程竞赛。
Jakub Pachocki认为,编程竞赛提供了一个很好的、封装的测试,可以衡量模型在受限环境和时间范围内提出新想法的能力。
不过,Jakub自述作为一位历史上极其不情愿使用任何工具(甚至只使用Vim)的“老派”程序员,使用GPT-5最新的编码工具让他觉得“这不是(以前的)方式了”。
他现在意识到,模型可以在15分钟内几乎完美地完成30个文件的重构,因此“你必须使用它”。
他形容这种新的编码方式目前仍有点处于“恐怖谷”(uncanny valley)阶段,因为它虽然解决了许多问题,但“仍然有点像……不如一个同事那么好”,并表示OpenAI的首要任务是摆脱那个恐怖谷。
而Mark Chen则将模型当前达到的水平和围棋选手李世石面对AlphaGo时的经历联系起来,他直言:
从解决八年级数学问题到一年后在编码竞赛中达到他们自己的表现水平,这种进展是疯狂的。
他坦言,他们确实感受到了李世石所经历的部分情绪,并思考这些模型“有什么是它们做不到的”。
Mark Chen观察到,这种进步已经改变了编码的默认方式。他引用最近与高中生的对话,指出现在的年轻人认为默认的编码方式是“凭感觉编码”(vibe coding),而自己从头开始编写所有编码机制反而成为一个奇怪的概念。
他最后总结道,氛围编码之后或许就是氛围研究(vibe researching),即凭感觉研究。
OpenAI招人:并非寻找“最出圈”的人
具体回归到人上,二人也分享了他们最看重的研究特质。
Jakub Pachocki认为,坚持不懈是关键。
研究的本质是探索未知,很多尝试都会失败,因此必须做好失败和从失败中学习的准备。同时,要有清晰的假设,并且对进展保持极度诚实,不能为了证明结果而自欺欺人。
他强调,对自己的想法保持信心很重要,但更重要的是知道什么时候它有效,什么时候无效,从而调整方向。
Mark Chen补充说,研究没有捷径,需要经验来学会如何选择合适的问题。问题太难容易受挫,太简单又缺乏满足感。研究过程常常伴随大量失败,需要学会什么时候坚持,什么时候转向。
他指出,“趣味性”来自阅读好论文、交流和经验积累。
而关于如何留住人才,Mark Chen表示,OpenAI的优势在于他们专注于基础研究,而不是简单模仿竞争对手。他们有清晰的研究目标,创新氛围鼓舞了研究员,同时公司也注重文化建设和人才培养。
Jakub则指出,他们寻找的不是最“出圈”的人,而是曾经解决过难题的人,具备扎实技术功底并愿意迎难而上的人,哪怕之前的领域不是深度学习。
我们不会纯粹寻找谁做了最引人注目的工作,或者谁在社交媒体上最引人注目(小扎:报我名得了~)。
在团队文化方面,Jakub强调要保护基础研究,不要被产品竞争的节奏带偏,研究员需要空间去思考未来一两年的重大问题。
总之,OpenAI的长期目标是打造“自动化研究员”,因此不同研究方向会围绕这一目标逐渐融合。按Mark Chen的话来说就是,粗线条上需要规定方向,但细节上保持开放。
如果有10%的额外资源,会投向计算
如果你有10%的额外资源,你会把它投入到计算、数据整理还是人员方面?
面对最后一个关键问题,Mark Chen明确表示,计算资源是合理答案。
(笑)没有研究人员会觉得自己有足够的算力。
Jakub补充说,必须明确优先级,否则可能在所有方向都只能做第二名。他强调计算仍是决定性因素,几年前大家认为会转向“数据受限”,但事实证明今天依旧处在强烈的计算限制下。
在算力有限的情况下,如今所有主流厂商几乎都会面临产品发布和研究哪一个优先的问题。
对此,Jakub强调OpenAI的研究路线主要基于长期信念,而非短期市场反馈。并且当谈到未来哪些先验会保持不变,他认为除了计算,还要考虑能源等物理约束。他预测机器人技术会在不久的将来成为主要焦点。
Okk,至此采访内容告一段落,你怎么看二人提到的上述观点?
访谈地址:
https://www.youtube.com/watch?v=KSgPNVmZ8jQ