AI两天推翻20年工作习惯，Karpathy百行代码开源项目“封神”，AI替你通宵肝研究、战绩可查

来源：36kr 10 小时前

“人在睡觉，AI 已经跑完了 100 轮实验。”

近日，特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 最近开源了一个叫 autoresearch 的项目，逻辑很简单：给 AI Agent 配备一套小型但真实可用的 LLM 训练环境，让它自己通宵自主搞深度学习研究。成果很惊人：两天内，Agent 自主完成 276 次实验，筛出 29 项有效改进，把一个语言模型的训练效率提升了约 11%，全程零人类干预。

截止目前，该项目已经获得 36.9k Stars。Karpathy 在 X 上介绍道，“我们的目标是打造这样的 Agent：让它能以最快速度持续推进研究，且全程无需你任何人工介入。”

开源项目链接：https://github.com/karpathy/autoresearch

在 README 里，Karpathy 写了一段让人震惊的话：

曾几何时，前沿 AI 研究还得靠碳基大脑完成：大家吃饭、睡觉、摸鱼，偶尔再用声波互联开个叫 “组会” 的仪式同步一下进度。那个时代早已远去。

如今，研究完全是自主 AI Agent 的天下，它们运行在云端巨型算力集群之上，声称当前代码库已迭代至第 10205 代。无论如何，没有人能够判断这个数字是对是错，因为“代码”早已变成一个自我修改的二进制程序，远超人类理解范围。

本仓库记录的，便是这一切的开端。

—— Karpathy，2026 年 3 月

极简到离谱：百行代码让 AI 彻夜科研

据介绍，autoresearch 项目总共 630 行 Python 代码，其中的 AI Agent 会自动修改代码、训练 5 分钟、检查效果是否提升，保留或丢弃结果，然后不断循环。你早上醒来，就能看到一整晚的实验日志以及一个更优的模型。核心在于，你不用再像普通研究者那样手动修改任何 Python 文件，而是去编写 Markdown 文件，为 AI Agent 提供上下文，搭建你的自主研究组织。

本仓库的训练代码是简化版、单 GPU 实现的 nanoChat，默认配置刻意保持极简基线，可以在此基础上持续迭代，找到能实现最快研究进展的 “研究组织代码”，或是加入更多 Agent 等等。

整个项目刻意保持轻量化设计，核心文件仅有三个：

prepare.py 包含固定常量、一次性数据预处理（下载训练数据、训练 BPE 分词器）以及运行时工具函数（数据加载器、评估函数），该文件永不修改。

train.py 是 Agent 唯一可编辑的文件，包含完整的 GPT 模型、优化器（Muon + AdamW）和训练循环。所有内容均可调整：模型架构、超参数、优化器、批次大小等，该文件由 Agent 自主修改和迭代。

program.md 是给单个 Agent 的基准指令文件。只需将 Agent 指向该文件，即可启动自主实验。该文件由人类编辑和迭代。

设计上，无论算力配置如何，每次训练都固定耗时 5 分钟（实际墙钟时间，不含启动 / 编译耗时）。核心评估指标为 val_bpb（验证集每字节比特数），数值越低越好，且该指标与词汇表大小无关，可公平对比不同架构修改的效果。

这意味着，AI Agent 每小时约可完成 12 次实验，通宵（按 8 小时计）约能跑完 100 次实验。这一设计有两大优势：无论 Agent 修改了什么（模型规模、批次大小、架构等），所有实验都具备直接可比性；autoresearch 能在该时间预算内，为硬件平台找到最优模型。缺点则是：实验运行结果无法与其他硬件平台上的实验结果对比。

此外，Karpathy 提醒道，目前这段代码只支持单张 NVIDIA GPU。理论上完全可以兼容 CPU、MPS 等其他平台，但那样会让代码变得臃肿。

大目标：“解放研究生、模拟一个博士天团”

autoresearch 项目在社区内掀起不小的关注度，有 1060 万次围观。有网友评价道，“太好了，研究生终于可以专注于真正的科学研究，而不是像保姆一样看着机器运行！”

Karpathy 则很快在 X 上同步了对 autoresearch 项目更远大的设想：autoresearch 的下一步，必须实现 Agent 之间异步大规模协作。“我们的目标绝非模拟一名博士生，而是模拟一个由无数博士生组成的完整科研社群。”

他认为，当前代码仅能在特定研究方向上，以同步方式生成单条提交记录链。但这个初始仓库更像一颗种子：从它出发，不同 Agent 可针对各类研究方向、不同算力平台，贡献各自的提交记录，最终枝繁叶茂。GitHub 看似适配这种模式，实则不然：它内置了一种隐性假设，存在一个 “主分支”，其他分支只是临时分叉出的 PR（合并请求），最终仍要合并回主分支。

为此，Karpathy 尝试做了一个超轻量化的原型来探索这种协作模式，比如让 Agent 把通宵实验的结果总结成一篇 Discussion（讨论帖）。另一种方式是用 PR（合并请求），优势是能保留精准的提交记录，但真的合并这些 PR，而是只想 “采纳” 并累积这些提交分支。即便用这种轻量化方式，也可以让 Agent 先通过 GitHub CLI 读取所有 Discussion/PR 获取灵感，待自身研究完成后，再把发现整理成一篇小型 “研究报告” 反馈回来。

Karpathy 坦言，他目前还无法确定最终形态该是什么样，但这是一个远超 autoresearch 仓库本身的宏大构想。理论上，Agent 可轻松处理并协作完成数千条分布在任意分支结构中的提交记录。当 “智能、注意力、韧性” 不再是瓶颈时，现有的（代码协作）抽象体系将面临巨大压力。

两天的体验，20 年的工作模式被颠覆？

发布 autoresearch 项目几天后，Karpathy 再次公开了其实验进展：他让 autoresearch 自主对深度为 12 的 nanochat 模型做了约两天的调优，其摸索出了约 20 处改动，成功降低了模型的验证损失。并且，他在对这些改动做了验证后发现，所有优化效果均可叠加且能直接迁移到更大的深度为 24 的模型上。将这些改动全部整合后，他还在实测中发现，榜单上的 “训练至 GPT-2 水平耗时” 从 2.02 小时缩短至 1.80 小时，性能提升约 11%。

“由此可见，这些优化都是实打实的，能带来切实的性能提升。我原本以为 nanochat 已是我手动精细调优过的项目，没想到首次以这种简单直接的方式尝试自主调优，就能取得如此显著的效果，这多少让我有些意外。”Karpathy 激动地说道，“这对我而言是一次全新的体验，20 年来我早已习惯手动完成神经网络训练的迭代优化：自己构思思路、动手实现、验证效果是否提升、基于结果再酝酿新想法、翻阅论文寻找灵感，周而复始。这是我二十年来日常工作的核心内容。而如今看到 Agent 能端到端地自主完成整个流程，还独立完成了约 700 次改动尝试，实在令人惊叹。”

并且，Karpathy 认为，未来，所有深耕大模型领域的顶尖实验室都会采用这种方式，这是大模型调优领域的终极挑战。当然，在规模化应用中，这套方案的复杂度会大幅提升毕竟实际场景中，需要调优的远不止一个 train.py 文件。但归根结底，这只是工程实现层面的问题，技术落地只是时间问题。

具体的落地思路可以是：启动一个 Agent 集群，让它们协同调优小模型，再将其中最有潜力的优化方案，逐步迁移到更大规模的模型训练中，而人类研究者则可根据需求，在环节中做辅助性的参与即可。最后 Karpathy 提出，任何可高效评估的指标或是拥有高效代理指标的任务（比如通过训练小模型来验证效果），都能通过 Agent 集群实现自主调优研究。大家也可以思考一下，自己所研究的问题是否也适用于这种方式。

值得一提的是，现在 autoresearch 项目已被全球开发者社区接手共建，他们搭了一个分布式协作层，让多个 Agent 共享成果、分工协作。到目前为止，已经跑了将近 3000 次实验、有 82 项改进。

参考链接：

https://x.com/karpathy/status/2030371219518931079?s=20

https://x.com/karpathy/status/2031135152349524125

极简到离谱：百行代码让 AI 彻夜科研

大目标：“解放研究生、模拟一个博士天团”

两天的体验，20 年的工作模式被颠覆？

相关新闻