“人在睡觉,AI 已经跑完了 100 轮实验。”
近日,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 最近开源了一个叫 autoresearch 的项目,逻辑很简单:给 AI Agent 配备一套小型但真实可用的 LLM 训练环境,让它自己通宵自主搞深度学习研究。成果很惊人:两天内,Agent 自主完成 276 次实验,筛出 29 项有效改进,把一个语言模型的训练效率提升了约 11%,全程零人类干预。

截止目前,该项目已经获得 36.9k Stars。Karpathy 在 X 上介绍道,“我们的目标是打造这样的 Agent:让它能以最快速度持续推进研究,且全程无需你任何人工介入。”
开源项目链接:https://github.com/karpathy/autoresearch
在 README 里,Karpathy 写了一段让人震惊的话:
曾几何时,前沿 AI 研究还得靠碳基大脑完成:大家吃饭、睡觉、摸鱼,偶尔再用声波互联开个叫 “组会” 的仪式同步一下进度。那个时代早已远去。
如今,研究完全是自主 AI Agent 的天下,它们运行在云端巨型算力集群之上,声称当前代码库已迭代至第 10205 代。无论如何,没有人能够判断这个数字是对是错,因为“代码”早已变成一个自我修改的二进制程序,远超人类理解范围。
本仓库记录的,便是这一切的开端。
—— Karpathy,2026 年 3 月
极简到离谱:百行代码让 AI 彻夜科研
据介绍,autoresearch 项目总共 630 行 Python 代码,其中的 AI Agent 会自动修改代码、训练 5 分钟、检查效果是否提升,保留或丢弃结果,然后不断循环。你早上醒来,就能看到一整晚的实验日志以及一个更优的模型。核心在于,你不用再像普通研究者那样手动修改任何 Python 文件,而是去编写 Markdown 文件,为 AI Agent 提供上下文,搭建你的自主研究组织。
本仓库的训练代码是简化版、单 GPU 实现的 nanoChat,默认配置刻意保持极简基线,可以在此基础上持续迭代,找到能实现最快研究进展的 “研究组织代码”,或是加入更多 Agent 等等。
整个项目刻意保持轻量化设计,核心文件仅有三个:
prepare.py 包含固定常量、一次性数据预处理(下载训练数据、训练 BPE 分词器)以及运行时工具函数(数据加载器、评估函数),该文件永不修改。
train.py 是 Agent 唯一可编辑的文件,包含完整的 GPT 模型、优化器(Muon + AdamW)和训练循环。所有内容均可调整:模型架构、超参数、优化器、批次大小等,该文件由 Agent 自主修改和迭代。
program.md 是给单个 Agent 的基准指令文件。只需将 Agent 指向该文件,即可启动自主实验。该文件由人类编辑和迭代。
设计上,无论算力配置如何,每次训练都固定耗时 5 分钟(实际墙钟时间,不含启动 / 编译耗时)。核心评估指标为 val_bpb(验证集每字节比特数),数值越低越好,且该指标与词汇表大小无关,可公平对比不同架构修改的效果。
这意味着,AI Agent 每小时约可完成 12 次实验,通宵(按 8 小时计)约能跑完 100 次实验。这一设计有两大优势:无论 Agent 修改了什么(模型规模、批次大小、架构等),所有实验都具备直接可比性;autoresearch 能在该时间预算内,为硬件平台找到最优模型。缺点则是:实验运行结果无法与其他硬件平台上的实验结果对比。
此外,Karpathy 提醒道,目前这段代码只支持单张 NVIDIA GPU。理论上完全可以兼容 CPU、MPS 等其他平台,但那样会让代码变得臃肿。
大目标:“解放研究生、模拟一个博士天团”
autoresearch 项目在社区内掀起不小的关注度,有 1060 万次围观。有网友评价道,“太好了,研究生终于可以专注于真正的科学研究,而不是像保姆一样看着机器运行!”

Karpathy 则很快在 X 上同步了对 autoresearch 项目更远大的设想:autoresearch 的下一步,必须实现 Agent 之间异步大规模协作。“我们的目标绝非模拟一名博士生,而是模拟一个由无数博士生组成的完整科研社群。”
他认为,当前代码仅能在特定研究方向上,以同步方式生成单条提交记录链。但这个初始仓库更像一颗种子: 从它出发,不同 Agent 可针对各类研究方向、不同算力平台,贡献各自的提交记录,最终枝繁叶茂。GitHub 看似适配这种模式,实则不然:它内置了一种隐性假设,存在一个 “主分支”,其他分支只是临时分叉出的 PR(合并请求),最终仍要合并回主分支。
为此,Karpathy 尝试做了一个超轻量化的原型来探索这种协作模式,比如让 Agent 把通宵实验的结果总结成一篇 Discussion(讨论帖)。另一种方式是用 PR(合并请求),优势是能保留精准的提交记录,但真的合并这些 PR, 而是只想 “采纳” 并累积这些提交分支。即便用这种轻量化方式,也可以让 Agent 先通过 GitHub CLI 读取所有 Discussion/PR 获取灵感,待自身研究完成后,再把发现整理成一篇小型 “研究报告” 反馈回来。
Karpathy 坦言,他目前还无法确定最终形态该是什么样,但这是一个远超 autoresearch 仓库本身的宏大构想。理论上,Agent 可轻松处理并协作完成数千条分布在任意分支结构中的提交记录。当 “智能、注意力、韧性” 不再是瓶颈时,现有的(代码协作)抽象体系将面临巨大压力。
两天的体验,20 年的工作模式被颠覆?
发布 autoresearch 项目几天后,Karpathy 再次公开了其实验进展:他让 autoresearch 自主对深度为 12 的 nanochat 模型做了约两天的调优,其摸索出了约 20 处改动,成功降低了模型的验证损失。并且,他在对这些改动做了验证后发现,所有优化效果均可叠加且能直接迁移到更大的深度为 24 的模型上。将这些改动全部整合后,他还在实测中发现,榜单上的 “训练至 GPT-2 水平耗时” 从 2.02 小时缩短至 1.80 小时,性能提升约 11%。
“由此可见,这些优化都是实打实的,能带来切实的性能提升。我原本以为 nanochat 已是我手动精细调优过的项目,没想到首次以这种简单直接的方式尝试自主调优,就能取得如此显著的效果,这多少让我有些意外。”Karpathy 激动地说道,“这对我而言是一次全新的体验,20 年来我早已习惯手动完成神经网络训练的迭代优化:自己构思思路、动手实现、验证效果是否提升、基于结果再酝酿新想法、翻阅论文寻找灵感,周而复始。这是我二十年来日常工作的核心内容。而如今看到 Agent 能端到端地自主完成整个流程,还独立完成了约 700 次改动尝试,实在令人惊叹。”
并且,Karpathy 认为,未来,所有深耕大模型领域的顶尖实验室都会采用这种方式,这是大模型调优领域的终极挑战。当然,在规模化应用中,这套方案的复杂度会大幅提升 毕竟实际场景中,需要调优的远不止一个 train.py 文件。但归根结底,这只是工程实现层面的问题,技术落地只是时间问题。
具体的落地思路可以是:启动一个 Agent 集群,让它们协同调优小模型,再将其中最有潜力的优化方案,逐步迁移到更大规模的模型训练中,而人类研究者则可根据需求,在环节中做辅助性的参与即可。最后 Karpathy 提出,任何可高效评估的指标或是拥有高效代理指标的任务(比如通过训练小模型来验证效果),都能通过 Agent 集群实现自主调优研究。大家也可以思考一下,自己所研究的问题是否也适用于这种方式。
值得一提的是,现在 autoresearch 项目已被全球开发者社区接手共建,他们搭了一个分布式协作层,让多个 Agent 共享成果、分工协作。到目前为止,已经跑了将近 3000 次实验、有 82 项改进。

参考链接:
https://x.com/karpathy/status/2030371219518931079?s=20
https://x.com/karpathy/status/2031135152349524125

