奥特曼最新专访:智能体今年大规模“上岗”,2026年将可独立搞科研
6 小时前 / 阅读约21分钟
来源:36kr
OpenAI奥特曼:DALL·E先于ChatGPT,未来聚焦智能体与编程核心。

奥特曼透露,OpenAI最早面向用户的产品并非ChatGPT,而是图像生成工具DALL·E,早期更主要通过API服务接口。

随着产品演进,用户对ChatGPT的认知也出现代际差异:年长用户将其当作搜索工具,年轻人视其为生活助手,而大学生则尝试将其深度嵌入学习与工作流,类似操作系统般使用。

面对用户需求的拓展,奥特曼认为当前算法仍有10-100倍提升空间,未来模型将支持万亿级上下文,并通过语音交互驱动新一代硬件形态。

OpenAI将“编程能力”确立为核心战略,AI将通过编写代码调用API,与外部世界建立更强连接。

奥特曼给出了智能体发展时间表:2025年大规模上线,2026年具备科学发现能力,2027年将进入现实世界并创造商业价值。

5月13日消息,OpenAI联合创始人兼首席执行官山姆·奥特曼作为特邀嘉宾,于美国当地时间5月12日出席了全球知名投资机构红杉资本举办的“2025 AI Ascent”大会。在本次专访中,奥特曼分享了OpenAI的创业历程、产品规划与发展路径,并深入探讨了他对AI行业未来的洞察。

奥特曼回顾了OpenAI从一个仅有14人的研究实验室,成长为全球领先的人工智能平台的历程。他设想将ChatGPT演进为一种高度个性化的AI服务——它能够记住用户的完整生活背景,从对话记录到电子邮件内容,同时能够在多个应用和服务之间无缝衔接、自然协作。

他指出,年轻一代用户已经将人工智能视为操作系统,而不仅仅是搜索工具。这种趋势预示着一个全新的未来:一个高效、统一的大模型,能够在无需重新训练的前提下,基于超大规模的上下文进行推理,全面理解用户的历史信息,从根本上重塑人与技术的交互方式。

在谈及AI智能体时,奥特曼给出了明确的发展时间表:

○ 2025年,智能体将开始大规模“上岗”,处理复杂任务,编程将成为其最具代表性的应用场景;

○ 2026年,智能体将具备自主发现新知识的能力,形成具有独立逻辑的决策框架;

○ 到2027年,智能体将正式进入物理世界,作为“数字劳动力”在制造、医疗等领域创造实质性的商业价值。

以下为奥特曼最新专访精华内容:

01 OpenAI的“从0到1” :ChatGPT是如何诞生的?

问:这是你们当年成立时的办公室?

奥特曼:没错,这正是我们最初的办公地点,2016年我们就在这里起步!

问:黄仁勋(英伟达CEO)曾提到,他当年就是在这里交付了首台DGX-1超级计算机系统。

奥特曼:确实。现在回想起来,那台机器真是小得令人惊讶。

问:和现在的设备比起来呢?

奥特曼:现在机箱依然非常庞大,不过当年那台大概有70磅重(约合32公斤),虽然沉但还能单人搬运。

问:2016年的你可曾预见OpenAI会有现在的光景吗?

奥特曼:完全没想过。那时我们14个人挤在角落里,围着白板讨论我们到底应该做什么。说实在的,那时我们就是个纯粹的研究实验室,虽然有着非常强烈的信念和方向感,但没有明确的行动计划。别说商业化产品了,连“大语言模型”(LLM)的概念都还很遥远。

问:当时还在尝试用AI打游戏?

奥特曼:是的,而现在我们可是这方面的专家了!

问:从公司初创到ChatGPT问世,历经六年时间,你们是如何设定里程碑的?

奥特曼:其实我们的第一个面向消费者的产品并不是ChatGPT,而是DALL·E(文本生成图像系统),更早的则是API接口服务。我们曾尝试过多个方向,包括游戏AI、机械臂控制等。后来有团队专注于无监督学习,这才诞生了GPT-1和GPT-2。但直到GPT-3,我们才感觉手头真的有了点“东西”,虽然当时还不清楚该用它来做什么。

与此同时,我们也意识到,如果想继续扩展模型规模,就必须筹集更多资金。像GPT-4这样的模型,其开发成本达十亿美元级,已不是靠科研资助能支撑的,除非是像粒子加速器那样的国家级项目。因此,我们开始认真思考,如何将这一研究转化为可持续的商业模式。

我们隐约意识到,这项技术终将变得非常实用。虽然我们开源发布了GPT-2的模型权重,但市场反应平平。然而,通过观察许多创业公司,我发现一个模式:开放API接口往往能带来意想不到的价值,这在很多YC孵化项目中被多次验证。另一个关键体会是:技术越易用,其价值通常越大。

当时运行这些大模型仍然非常困难,因此我们决定构建专用软件以优化部署体验。由于尚未明确产品形态,我们选择在2020年6月开放GPT-3的API接口,想看看开发者们是否能基于它打造出有价值的应用。

有趣的是,虽然全球市场反应较为冷淡,但硅谷创业圈敏锐地意识到这项技术的潜力,有人甚至认为它是通用人工智能(AGI)的雏形。

就我所知,真正基于GPT-3 API构建起可持续商业模式的公司并不多,主要集中在文案生成服务上,这是当时唯一能够突破商业化门槛的应用场景。但我们注意到一个异常现象:尽管人机对话功能尚不成熟,用户却乐此不疲地与模型互动。要知道那时的聊天体验并不理想,因为还没有引入基于人类反馈的强化学习(RLHF),但大家依然爱不释手。

除了文案生成,人机对话几乎是唯一具备“杀手级应用”潜力的功能,这最终促使我们决定开发ChatGPT。在ChatGPT 3.5发布时,API已支持八大类商业应用场景,远远超出早期的单一功能。我们也愈发坚信——人们渴望与AI对话。

虽然DALL·E的表现也不错,但考虑到我们在微调技术方面的积累,我们最终决定投入资源,专门打造一款面向对话的AI产品。

经过六年的打磨与探索,ChatGPT终于在2022年11月30日正式上线。如今,每周有超过5亿用户与之互动。

02 从精简团队到高效协作,OpenAI是如何做到“越大越快”的?

问:最近半年,你们似乎在持续不断地发布新产品?

奥特曼:是的,确实如此。我们发布了很多重量级更新,而且产品发布节奏越来越快,连我们自己也觉得非常惊人。

问:你是如何在一家如此规模庞大的公司中,仍然保持快速的产品迭代能力?

奥特曼:我认为,很多公司都会陷入一个典型误区:随着公司规模的扩大,产出却陷入停滞。他们只是为了扩张而扩张,却没有同步提升产品的研发与迭代效率,这就是所谓的“效率停滞”。

我始终坚持几个基本原则:让每个人都高效运转;保持团队小而精;确保人均产出与公司规模相匹配。否则,你就会看到一个40人的会议,为了一个小功能而争论不休。商业界有句老话:“优秀的管理者永远很忙”,因为没有人希望看到闲着的人到处搅局、影响效率。

在我们公司,也像许多科技公司一样,真正创造价值的是研究员、工程师和产品经理。你必须确保这些关键岗位上的人始终专注、高效地推进工作,产生实际影响。如果你打算扩张公司规模,那就意味着必须同时增加项目数量,否则就只会增加无谓的会议和内耗。

因此,我们尽量保持精简的团队结构,但赋予每个人极大的责任感。要实现这一点,唯一的方式就是同时推进大量项目。现在,我们确实有机会打造下一代互联网的核心平台。要实现“终身个性化AI助手”的愿景,意味着必须跨越不同的服务场景,覆盖主流与长尾应用,而这需要构建丰富的功能模块和配套能力。

问:在过去这六个月里,有没有哪个产品让你特别自豪?

奥特曼:我最自豪的是模型能力的持续跃升。当然,我们距离目标还有不少改进空间,但我们正在以非常快的速度迭代。目前的ChatGPT已经是一款非常优秀的产品,而它之所以如此强大,核心就在于底层模型的出色表现。一个模型能够高质量地完成如此多样的任务,这一点让我感到由衷惊叹。

03 如何不被OpenAI“碾压”?奥特曼:核心AI服务之外,机会无限

问:你们既在开发小模型,也在推进大模型,几乎什么都在做。那么我们这些从业者该怎么做,才能不被OpenAI“碾压”?

奥特曼:你可以这样理解我们在做的事情:我们希望成为用户的核心AI订阅服务提供商。这其中一部分功能将通过ChatGPT实现,其他还会涵盖一些关键模块。但最核心的,还是打造更智能的模型,探索新的交互入口,比如专属硬件终端设备,甚至类似操作系统的基础平台。至于 API 或 SDK 的形态,我们现在还没有完全想清楚,但一定会找到合理的路径。可能会经历几轮尝试,但最终我们会做成。我希望我们的平台能为全世界创造巨大的价值,成为其他开发者创新的基础。

问:也就是说,你们做“AI核心订阅服务”,其他部分我们这些开发者可以自由发挥?

奥特曼:确实是这个思路。如果你能做出比我们还要优秀的核心AI订阅服务,那也非常欢迎。

问:外界传言你们正在以3400亿美元估值融资400亿美元,这是真的吗?

奥特曼:我不确定是不是我们自己说的——如果是我们公开讲的,那应该就是对的。

问:OpenAI未来的发展目标是什么?

奥特曼:我们就是继续打造更强大的模型,推出用户喜欢的产品。除此之外,没有什么复杂的“终极蓝图”。我们更关注眼下要做什么。现场有很多OpenAI的老同事可以作证,我们不是那种喜欢坐下来制定繁复计划的团队。

我始终相信——如果你从一个“宏大终点”向回推规划,很容易走偏。与其设计一个自上而下的总体战略,不如一步步往前走,靠用户反馈和现实成果驱动决策。

我们知道接下来会需要庞大的AI基础设施,要建“AI工厂”。与此同时,我们会不断提升模型性能,打磨优秀的终端产品,从模型到接口再到硬件,每一部分都要做到最好。

我们以灵活应变为荣。随着外部世界不断变化,我们也会及时调整战术。目前我们还没开始规划明年要发布的产品,但我们有信心打造出真正打动用户的创新。我对我们目前的研究路线充满信心,从未像现在这样乐观。

问:接下来的研究路线图是怎样的?

奥特曼:更智能化的模型,这是我们的中心目标。但每一步如何走,我们会边走边看,通常是走一步看两步。

问:所以你更相信“从现在出发,逐步演进”,而不是“自上而下反向规划”?

奥特曼:完全正确。我听过很多人讲他们有一个宏大的战略蓝图:比如“最终要统治世界”,然后再往回推算每一步该做什么……但我从来没见过,这样的路径能真正带来巨大成功。

04 年长者用AI查信息,年轻人用AI过人生

问:你认为大公司在转型为 AI 原生组织时,常犯哪些错误?无论是在使用 AI 工具还是构建 AI 产品方面?为什么初创公司明显在创新上更具优势?

奥特曼:几乎每一次技术革命都会出现类似现象,所以这并不令人惊讶。他们犯的错误与以往如出一辙:过度依赖传统流程,固守旧有思维。

当技术每隔一两个季度就发生飞跃,而你还在依赖一年才开一次会的信息安全委员会来决定是否引入新应用、如何处理数据,那么这种转型注定将异常艰难。这正是“创造性颠覆”的核心,也是初创企业往往能胜出的根本原因。行业就是在这种颠覆中不断前进的。

我对大公司的转型速度感到失望,但并不意外。我的判断是,未来一到两年里,它们仍会经历挣扎期——试图假装AI不会颠覆一切,等真正危机降临时才匆忙转型,但往往已经为时过晚。届时,初创公司早已利用灵活机制和新范式完成“弯道超车”。

而这种落差不仅体现在组织层面,也反映在人身上。比如,你可以观察一下一个20岁的年轻人与35岁用户在使用 ChatGPT 时的差异,简直天壤之别。这就像智能手机刚问世时,孩子们能迅速上手,而年长者可能要花三年时间才能掌握基本功能。今天的 AI 工具,也在重演类似的“代际断层”,而企业的行为,往往只是个体趋势的放大。

问:你观察到年轻人在使用 ChatGPT 上有哪些独特的创新方式?

奥特曼:他们真的已经把 ChatGPT 当作一个操作系统来使用了。他们会结合文件、工具链与提示词,设定复杂的操作流程,甚至精心设计提示词并记在脑子或文档里,就像使用一门语言一样。

让我印象最深的是,如今很多年轻人在做人生重大决策之前,都会先来问 ChatGPT 的意见。因为它已经拥有他们完整的背景信息、过往的对话记录与行为偏好,具备了“记忆”能力,这使人们与它的互动方式发生了根本变化。简单来说:年长用户把 ChatGPT 当作谷歌的替代品,20–30 岁的用户视其为“人生顾问”,而大学生则已经把它当作操作系统来用了。

问:OpenAI内部是如何使用 ChatGPT 的?

奥特曼:ChatGPT 在我们内部主要用于大规模辅助编程。具体比例难以精确衡量,用“代码行数”统计是没有意义的。例如微软会说:“我们有20%或30%的代码由 AI 编写。”但我认为,用行数衡量是非常愚蠢的方式。真正关键的是,它是否能产出高质量、有意义的代码——那些真正解决问题的核心代码,而不是边角料。这才是价值所在。

问:你刚才提到你们的核心是打造面向消费者的订阅服务,收入也主要来自消费端用户。那为什么还要继续保留 API?

奥特曼:我的希望是,最终实现一个统一融合的系统——用户可以用同一个 OpenAI 账号登录所有服务,第三方也能通过 SDK 将 ChatGPT 深度集成进自己的应用界面。一旦个性化 AI 掌握了你的完整信息与使用偏好,你自然希望无论在哪种应用场景下,它都能与你保持一致的个性化体验。虽然今天的API离这个目标还有相当距离,但我相信我们终将实现它。

05 OpenAI的终极目标:成为AI时代的“操作系统”

问:对于构建应用层产品的开发者来说,我们非常希望能用上你们各种API,比如Deep Research API(虽然还没发布)。你们是否会优先打造一个更开放的平台供大家使用?

奥特曼:我希望未来能出现一种介于“完全封闭”和“完全开放”之间的新范式,类似一种“HTTP协议级别的AI互联网标准”。我设想的是,未来的网络结构将支持更加细粒度的功能模块调用、智能体系统之间的高效协作,并内建身份认证、支付、数据交换等机制,做到“工具互通、系统互信”。目前我们还无法确切描述这个系统最终会长什么样,但我们对这个方向越来越清晰。要实现这样的平台,可能需要经历几轮尝试和演化,但我们希望这是AI生态发展的主路径。

问:AI想更好理解现实世界,需要更多输入数据。你们有没有考虑让模型接收来自传感器的数据,比如温度、环境等?

奥特曼:实际上,已经有不少开发者在这么做了。他们通过我们的 API 把传感器数据接入,比如使用GPT-4(03模型)来进行处理。某些场景下,这种做法效果非常出色。更重要的是,我们的最新模型在处理这类非结构化或多模态数据时,比以往更强大。未来我们很有可能会在模型架构上,更明确地支持这类输入。

问:语音模型在OpenAI 的技术栈中处于怎样的位置?未来会如何整合进 ChatGPT?

奥特曼:语音交互对我们来说极其重要。坦率地说,目前我们的语音产品还远未达到理想状态,但没关系。我们在文本模型上也经历了很长的迭代过程,最终做得很好,语音也一样会做到。

我认为,一旦语音技术成熟,很多用户都会更愿意通过语音与 AI 互动。最让我着迷的是,我们发布的语音模式允许用户一边讲话、一边操作手机界面,这是一种“语音 + UI”的混合交互方式,非常有潜力。虽然目前还不够理想,但一旦纯语音体验完善,它不仅将在现有设备上大放异彩,还可能催生全新的人机交互设备形态。如果AI真的实现“类人语音交互”,一切都将不同。

问:编程对于OpenAI来说,是一个垂直场景,还是核心战略?

奥特曼:编程绝对是我们的核心战略之一。目前,你向ChatGPT 提问,它返回的可能是文字或图像。但未来,我们希望它直接返回可运行的程序代码。我们认为,编程将成为AI与现实世界互动的主要方式,AI通过写代码调用API,实现任务执行。

因此,ChatGPT 必须成为世界上最好的编程助手。我们的愿景是:从“助手”演进为“智能体”,再演化成“完整的应用系统”。这个过程会是连续的、逐步推进的。

问:在打造更强大模型的过程中,除了常见的“数据、算力、架构”三要素之外,还有哪些关键因素被大家低估了?

奥特曼:这些基础要素确实都非常关键,但我认为,真正能带来质变的,是算法层面的重大突破。我们还可能看到一两个“数量级级别”的算法创新(10倍甚至100倍提升),虽然出现的几率不高,但只要出现一次,就将产生巨大影响。

问:作为世界顶级机器学习团队的领导者,你是如何在“放手让天才研究自己感兴趣的课题”和“自上而下推动重点项目”之间取得平衡的?

奥特曼:确实有些项目必须高度协调,必须自上而下推进。但我认为很多组织在这方面走得太远了。我们在创立 OpenAI 时,花了很多时间研究历史上优秀研究实验室的运作模式。现代参考案例其实并不多,所以我们主要从历史中汲取经验。

经常有人问:“为什么 OpenAI 总能不断创新,而别的实验室只是跟随?” 我们其实公开分享过那些经验与原则,但很多团队听完之后,还是更倾向于走自己的老路,结果并不理想。说到底,科学研究本身是可以高效管理的,但前提是你得真正理解“管理”不等于“管死”。

问:现在的大模型似乎已经可以帮助研究者解决一些人文学科长期未解的问题,比如艺术周期的变化、系统性偏见等。OpenAI 是否考虑与学术界展开合作,推动这类研究?

奥特曼:我们确实设有学术合作项目,核心资源是模型访问权限。其实,大多数研究者并不需要完全定制的技术支持,他们想要的是:对通用模型的自由调用,或者获得底层基础模型的运行权限。好在我们的架构非常适合这类需求。许多学术项目只需标准化API即可完成,OpenAI模型天然适合支持这类探索。虽然我们偶尔会参与一些定制化研究,但我们90%以上的精力,还是集中在提升通用模型能力。这是我们认为最具长期价值的路径。

06 GPT-5还不是终点,OpenAI真正的野心是“读懂你一生的AI”

问:你怎么看待模型的定制化?它是过渡方案还是长期路径?

奥特曼:在我理想中的状态是这样的:未来会有一个极其轻量、推理能力强大的模型,拥有万亿级 token 的上下文窗口。它能够记住你一生的所有对话、读过的书、邮件、浏览记录,并持续吸收新增信息。它无需调整模型权重,仅凭这些上下文信息就能做出精准推理。当前技术距离这一愿景还有相当距离,所有现有方案都只能算是对理想形态的妥协。但我希望最终我们能实现这种纯粹由上下文驱动的个性化AI系统。

问:你认为未来12个月 AI 领域的主要价值创造点在哪里?是记忆功能、安全协议,还是智能体与现实世界的连接?

奥特曼:归根结底,价值创造依然集中在三大方向:AI基础设施建设(更大规模的计算和部署能力)、更聪明的模型、以及将AI纳入现实社会结构的“支架”——包括接口、流程和信任机制等。只要持续推进这三项,其他进展自然会跟上。

如果细化来看,我认为2025年将是“AI智能体突破年”,尤其在编程领域,智能体可能成为主流应用场景之一。2026年或许将成为AI辅助发现新知识的元年,也许AI会参与甚至主导人类历史上的重要科学发现。

长远来看,一旦人类完成对地球的“扩散与殖民”,经济增长将主要依赖科学进步与知识的应用落地。我猜测2027年将是AI从“认知层”转向“物理世界”的关键节点,机器人将从探索性项目变为真正的生产力工具。当然,这只是我的直觉式预测。

问:GPT-5会不会比我们所有人加起来都聪明?

奥特曼:如果你现在还觉得自己比GPT-4聪明很多,那也许还真得加把劲了—— 毕竟GPT-3已经非常强大了。

问:你上次来这里时,刚经历了OpenAI的“高层风波”。事过半年,有什么建议可以给创业者,关于“韧性”、“耐力”和“抗压”能力吗?

奥特曼:作为创始人,你一定会不断面临新的挑战,它们会越来越复杂,赌注也越来越高。但好消息是,你的情绪承受力会不断增强。即便挑战更大,处理它们所需的心理能量却越来越少。你会逐渐变得更“抗打击”,更擅长应对压力。

问:哪一部分最难?是危机爆发当时,还是之后的余波?

奥特曼:其实,最难的不是危机爆发的那一刻。在那个时点,你往往会被肾上腺素驱动,资源和支持也会快速聚集到你身边,你甚至会“自动进入战斗状态”。最艰难的是风暴过后的恢复期。比如到了第60天,喧嚣褪去,你开始清点残局、重建信心、重新组织团队——这才是真正考验心理韧性的阶段。很多人关注如何应对“Day 0”的危机爆发,却忽视了“Day 60”的重建过程。而真正宝贵的能力,是你能在那种低谷中重新站起来。没有哪本书能教你怎么做,但每经历一次,你就能变得更强。