突发,Transformer之父告别谷歌,转投OpenAI
来源:36kr 3 小时前

Transformer核心奠基人之一,入职OpenAI了!

今天,Noam Shazeer亲自官宣:他将加入OpenAI,担任「架构研究负责人」。

这位用一篇《Attention Is All You Need》改写了整个AI世界的传奇人物,在回到谷歌不到2年后,再一次选择转身离开。

随着官宣落地,OpenAI成员已在X上齐刷刷列队,欢迎大佬的到来!

亲手写下AI时代,第一行代码

要理解今天这条消息的分量,得先搞清楚Noam Shazeer是谁。

一句话,他是「现代AI的地基」的浇筑者之一。

2017年,那篇标题狂得有点嚣张的论文《Attention Is All You Need》横空出世,提出了Transformer架构。

今天每一个大模型,GPT、Gemini、Claude,底层全部脱胎于这篇15页的论文。

八位作者,被业界封为「Transformer八子」,Shazeer便是其中之一。

而Shazeer,不只是挂名作者。

多头注意力(multi-head attention)是他亲手设计的,残差结构是他搭的,第一个跑赢SOTA的可用实现,是他一行一行敲出来的。

然而,属于Noam Shazeer的「封神榜」,远不止这一篇划时代的论文——

2016年,稀疏门控的混合专家(MoE),现代LLM省算力的命门技术;

2018年,Mesh-TensorFlow,第一个能在超算上训练巨型Transformer的实用系统;

2019年,T5;

还有谷歌对话系统LaMDA的核心贡献者。

毫不夸张地说,现代大模型赖以生存的几大底层技术,几乎全都在他的名下。

难怪有知名播客主持人,直接给出最高评价,「他是这场AI革命背后,那个最该『负责』的男人。」

两次出走,谷歌为他砸了27亿

而这段开挂的履历,还要从更早讲起。Shazeer是个不折不扣的天才少年。

1994年国际数学奥林匹克金牌,满分,随后进入杜克大学攻读数学与计算机。

2000年,他加入了当时才两岁的谷歌,第一份大活儿是改进搜索引擎的拼写纠错;

后来写下PHIL算法,成了谷歌AdSense系统的内核。

这一干,就是9年。

2021年,Shazeer正式离开谷歌,与Daniel De Freitas创办了Character.AI。

2024年8月,谷歌做了一件震动全行业的事:

为了把Shazeer请回来,谷歌以27亿美元授权了他的创业公司Character.AI的技术。

这笔钱名义上买的是技术,业内都心知肚明——谷歌真正想买的,是那个人。

Shazeer持有Character.AI三到四成股份,仅这一笔,他个人就套现了约7.5亿到10亿美元。

回来之后,他和Jeff Dean、Oriol Vinyals一起,成了谷歌Gemini的技术掌舵人。

坊间传闻,正是他回来后揪出了Gemini训练里一个深藏的bug,让模型训练效率暴涨。

最终,把Gemini 3推上各大榜单第一,逼得奥特曼在OpenAI内部拉响「红色警报」。

换句话说,谷歌这两年的翻身仗,他是头号功臣之一。

所以今天他走,谷歌的痛,不只是少了一个VP那么简单。

OpenAI火速官宣:架构研究负责人

谷歌这边军心未稳,OpenAI那边已经把欢迎词写好了。

几乎在同一时间,OpenAI首席研究官Mark Chen发推接人,Noam Shazeer将任新架构负责人。

他在Transformer、MoE和高效解码上的工作,塑造了现代AI。 

他对AGI极度笃信,而且对『让一切走向正确』想得非常透彻。

注意那个职位,架构研究负责人,这五个字信息量极大!

OpenAI找他,不是去优化某个产品,而是去搞架构、去想「Transformer之后是什么」。

让那个发明了Transformer的人,去发明下一个Transformer。

这步棋的野心,写在脸上。

集齐了两个Transformer作者

而真正让人脊背发凉的是另一个细节——

八位Transformer作者,早已各奔东西:Aidan Gomez去做了Cohere,Llion Jones创办Sakana,Vaswani和Parmar去了Adept……

唯独有一个人,五年前就低调走进了OpenAI,那就是Lukasz Kaiser。

他没创业,一头扎进推理模型,主导了o1、o3的核心研发。

现在Shazeer再进去,OpenAI一口气攒齐了两个Transformer原作者。

一个定义了过去,一个在啃未来。

如今两人将在同一面旗下,去搭下一代AI的骨架。这种阵容,放眼全行业,独此一家。

Transformer之后,赌一条通往ASI的路

或许人们会问,为什么是OpenAI?

Mark Chen那句「极度的AGI信徒」,才是答案的关键。

Shazeer对超级智能的信仰,近乎赤裸——

他公开谈论过,「百万个自动化研究员」在数据中心里日夜运转,谈论过「世界GDP暴涨100倍」。

当被问到大模型为什么能work,他给过一个堪称玄学的回答:

我最好的猜测,是神的恩典,没人真正理解到底发生了什么。

而真正值得细想的是:多头注意力,那个跑在今天每一个、正向超级智能狂奔的模型底层的机制,正是出自他之手。

Transformer只是第一步,从AGI到ASI那条路上的地基,是他一遍遍重新发明出来的。

如今,这个把地基铺向ASI的人,站到了OpenAI这一边。

27亿,能买回一个人,却买不回他赌的那个未来。

参考资料:

https://x.com/NoamShazeer/status/2067400851438932297?s=20

简体中文 English