硬刚OpenAI，中国团队杀入Agentic AI全球前二，一战封神

来源：36kr 2 小时前

【导读】Feeling AI凭借CodeBrain-1在权威榜单Terminal-Bench 2.0中强势突围，仅次于OpenAI最新旗舰，位居全球第二。不仅打破了美系巨头的绝对垄断，更标志着中国AI在 Agentic AI（智能体）复杂任务规划与自主编码领域的工程化能力已达到世界顶尖水平。

在中国农历春节的前夜，全球科技界的空气中不仅弥漫着辞旧迎新的气息，更夹杂着一股前所未有的硝烟味。

Anthropic祭出了Claude Opus 4.6，OpenAI则以GPT-5.3-Codex强势回应。

双方在技术之巅的对决看似是老生常谈的「王座之争」，但在平静的水面之下，竞争的底层逻辑已然悄然改写。

全球大模型竞赛已正式从实验室里的「参数博弈」突变为残酷的「实战进化」。

这一次，巨头们不再沉迷于跑分数据的虚幻繁荣，而是将目光死死锁定了架构的严谨性与自主工作流的长效续航——

能否在真实商业世界中「破局」，成为了唯一的度量衡。

在硬核指标的正面交锋中，OpenAI和Anthropic两家巨头均选择Terminal-Bench 2.0作为实力背书：Opus 4.6在Agentic Terminal Coding Task上以 65.4%的胜率展现了卓越的智能体编码能力；而Sam Altman凭借5.3-Codex+ Simple Codex的组合创下的 77.3%（75.1%）高分，宣称其登顶全球编码性能之巅。

正如NVIDIA首席科学家Jim Fan所言：真实的终端环境是AI的「魔鬼训练场」。

在闭环环境中自我进化，已成为衡量模型工程能力的终极标尺。

令人振奋的是，在这一权威赛道上，中国的AI初创团队Feeling AI异军突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下，以 72.9%（70.3%）的惊艳战绩跃升全球榜单第二，成为前十强中唯一的中国新锐。

刚拿下Agentic Memory SOTA，Feeling AI又上大分

5天前，Feeling AI团队在深夜发布MemBrain1.0，LoCoMo / LongMemEval / PersonaMem-v2等多项主流记忆基准评测中拿下全新SOTA，反超MemOS、Zep和EverMemOS等记忆系统和全上下文模型。

在KnowMeBench Level III两个难度等级最高的评测中更是比现有评测结果大幅提升超300%。

在AI技术圈和资本押注的新风口——Agentic Memory方向先打出了第一张牌。

强大的记忆能力以及适配模型原生的层级化记忆系统，意味着Agentic AI正从模型能力逐步走向用户体验层面的范式跃迁。

紧随MemBrain 1.0的余热，Feeling AI昨晚又打出了第二张牌——CodeBrain。

作为具备动态规划与策略调整能力的「进化大脑」，CodeBrain-1迅速跻身权威基准Terminal-Bench2.0榜单全球第二，仅次于OpenAI 5.3-Codex的官配Simple Codex。

在Feeling AI的官方媒体中，其一直在强调动态交互是世界模型通向AGI的终极拼图。

其原创的跨模态分层架构提出了三层核心能力——负责理解、记忆与规划的 InteractBrain，负责能力执行的 InteractSkill，以及负责渲染呈现的 InteractRender，共同构成了其技术护城河。

目前已经亮剑的MemBrain与CodeBrain 都属于InteractBrain核心层，精准定位在复杂动态交互场景下的深度理解与长程规划。

如此看来，这两项在全球拿下极具说服力成绩的工作应该并非偶然，而是早有布局。

这也进一步解释了无论是用于Agentic Memory的MemBrain1.0还是用于确保模型任务规划和执行成功率的CodeBrain-1，其算法核心关注点也集中在服务于在复杂「动态交互」场景下的能力。

OpenAI在其官网技术博客中明确将Simple Codex 定义为「针对长程软件工程任务的最优解」。

模型和Agent 框架的良好组合也许将成为未来大模型商业落地的标准形态。

Agentic Memory的记忆能力未来也许会成为Agent 框架的一部分，就像是一个外挂的记忆大脑，通过系统化的能力让模型更强。

一个能驾驭全球顶尖模型的中国框架，正是AI时代最核心的智能中枢。

对顶尖模型的深度驱动能力，意味着中国团队已在 AI 时代的「战术调度中心」占据高点，正在参与定义未来大模型的工程标准。

CodeBrain-1，会动态调整计划与策略的「大脑」

在Terminal-Bench官方评测网站的最新排名显示，CodeBrain-1仅次于Open AI的Simple Codex（GPT-5.3-Codex），Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。

榜单上还有一些大家熟悉的Agent或机构，如Warp、Coder、Google、Princeton等。

（官网截图）

Terminal Bench覆盖的任务类型非常广泛，其中既包括复杂的系统操作，也包含大量需要在真实终端环境中完成的编码任务。

CodeBrain-1的核心关注点，是「代码能否被正确写出并运行」。

在技术实现上，CodeBrain-1 专注打磨了两个直接影响「能否成功且高效地完成任务」的环节。

Useful Context Searching：只用「真正有用」的上下文。在复杂任务中，信息不是越多越好，而是是否相关，减少噪音可以有效避免LLM的幻觉问题CodeBrain-1会根据当前任务需求和已有Code Base索引，充分利用LSP (Language Server Protocol) 的功能，提高关联信息的检索效率，有效辅助Code Generation的过程。比如当我们需要为一个游戏Bot规划任务时，需要先了解如何使用该Bot的API。CodeBrain-1在Coding过程中，借助LSP Search准确获取了move_to(target)、do(action)等相关方法的签名、文档和已有Code Base内的使用实例等信息，有效降低了关联信息检索的损耗和上下文干扰。
Validation Feedback：让失败真正变成信息。CodeBrain-1可以从LSP Diagnostics当中高效定位，并补充错误相关的代码和文档，有效缩减Generate -> Validate的循环过程。比如CodeBrain-1编写的代码中出现了调用 on(observation, exec)（一个定义Bot Reaction的方法）时，出现了参数exec类型错误的问题，这时，LSP除报错argument type mismatch之外，还会额外提供该方法的caller示例、错误参数相关文档、以及exec这个参数在实现中如何被使用等辅助信息。
团队从Terminal Bench中筛选出了一个更聚焦的子集，共47条任务，均可以使用单一程序语言（Python）完成。在这一子集中，CodeBrain-1也表现出了稳定而一致的完成能力：关联代码和文档检索更高效；在代码检查和验证失败时，能更快定位问题。

此外，在Token的消耗方面，CodeBrain-1也展现出了不俗的表现，可持续降低用户成本。

对比Anthropic发布的技术文档，当基模均使用claude opus 4.6时，使用CodeBrain-1和Claude Code在两者均成功的Py Tasks子任务上所消耗的总Token大幅缩减了超15%。

CodeBrain-1在Terminal-Bench 2.0上的强势表现还不仅仅体现在真实命令行终端（CLI）环境下的端到端任务执行能力。

更重要的，团队进一步的赋予了它更高阶的能力——会动态调整计划与策略的「大脑」，它通过优化任务的执行逻辑和错误反馈机制，显著提升了模型在真实终端环境下的操作成功率。

CodeBrain-1提出了一种不同的解决方式。并非让 AI 直接「随意发挥」，而是反过来调整分工方式。

CodeBrain-1 负责在这些约束条件内，动态生成「智能」所对应的可执行程序，并根据实际反馈不断调整。

这里的「计划和策略」既可以作用在个体层面，也可以作用在群体层面。

对个体而言，它意味着角色可以根据自身目标、记忆和观察结果，持续调整日程、行为选择和对他人的态度对群体而言，它意味着一个组织可以形成共享记忆，并基于外部条件变化，调整整体规划和响应规则。

为了更直观地展示CodeBrain-1的能力，团队将它放入游戏场景中，作为一种行为与策略生成引擎。

#Case 1：游戏bot的实时驱动

在一些开放世界游戏中，它可以承担游戏伙伴的角色。玩家可以用自然语言表达意图，让bot执行。从理解自然语言中的需求——「帮我建个房子」、「造一把镐子」，到规划行动方案——「收集资源」、「清理工作环境」、「建造/制作」，最终生成并执行完整的行动脚本以实现目标，他可以有条不紊地应对任务，丰富玩家的游戏体验。

#Case 2：群体记忆驱动的战术演化

在「搜打撤」类游戏中，如果玩家长期走一条习惯性路线，并被多次观察到，敌对群体可以逐步强化这一「群体记忆」。

在后续地图构建与部署阶段，系统会据此调整整体策略，例如：

同时，还可以叠加行为表达规则，增强沉浸感，在热点区域成功发现玩家时高喊「抓到你了！」或者是在非预期区域遭遇时高喊「预判失误！」更进一步，可以配置简单的小队作战策略，比如前排冲锋，后排掩护。

这类行为并非单点脚本，而是由群体策略动态生成的结果。

为什么AI巨头都在，Terminal-Bench 2.0 上较量？

Terminal-Bench 是由斯坦福大学与 Laude Institute 联合打造的开源基准，被公认为 AI 智能体在真实命令行（CLI）环境下端到端执行能力的「金标准」。

与纸上谈兵的代码生成测试不同，它的严苛在于：

闭环实战环境： 在隔离的 Docker 容器中，AI 必须像人类专家一样，在真实的 Linux 生态中完成编译、调试、训练及部署。
高压长程任务： 89 个深度场景横跨软件工程与科学计算，不仅要求极高的逻辑跨度，更彻底杜绝了简单的「模式匹配」。
零容忍验证： 采用 0/1 判定准则，唯有产出符合预期的交付物（如修复的代码或运行的服务）才算通关，没有任何「模糊分」。
2.0 的「天花板」效应： 升级后的 2.0 版本大幅拉高了门槛。目前全球顶尖模型的解决率普遍难以突破 65%，这已成为大模型处理系统级复杂任务的「深水区」。

CodeBrain-1首次亮相便一举夺得全球第二，其含金量不言而喻。

以GPT系列为例，顶尖模型虽具备极强的逻辑推理链（Reasoning Chain），但常因「过度思考」导致执行链路冗长。

CodeBrain-1并不是一个「更会说话」的AI，而是一个由Code组成、能够持续调整计划与策略的执行型大脑，它巧妙地扮演了「调度中枢」与「效率校准器」的角色：它引导模型在常规操作中保持极速响应，仅在遭遇关键报错时激活深层思考。

这种对底座模型的精准驾驭，正是拉开商业化落地差距的核心变量。

鲁棒的闭环纠错（Error Recovery），高效的任务分解（Sub-goal Decomposition）和对环境感知的精确理解，在AGI的商业版图中，强大的Agent依然是「模型落地的必经之路」。

它不仅关乎任务分解的精度，更关乎在闭环环境中纠错与生存的韧性。

Sam Altman在GPT-5.3-Codex发布后的宣言也佐证了这一趋势：Codex已从单一的代码审查工具，蜕变为能横跨全生命周期、执行专业人士所有计算机操作的「全能代理」。

在OpenAI的蓝图中，模型与框架正进化为深度绑定的「智能全家桶」。

即便巨头环伺，垂直行业的深水区依然为优秀的工程框架留下了巨大的商业红利。

无论是系统级的Agent框架，还是精悍的开发者效能工具，这些「离用户更近」的触点都潜藏着爆发式增长的可能。

作为一家中国初创团队，Feeling AI能在OpenAI尖端模型发布的瞬间完成深度整合，并跑出全球领先的战绩，这不仅是工程响应速度的胜利，更是中国AI团队在全球工程化协同中占据制高点的有力证明。

在Terminal-Bench 2.0这种以「真实环境、长程进化」著称的硬核赛道上，紧随OpenAI之后摘得全球榜眼，其标志性意义不言而喻：中国创业团队已率先跨越了Agent从「对话玩具」到「生产力工具」的鸿沟，在「重塑工作流」这一战略高地上占据了领先身位。

在OpenAI与Anthropic构建的巨头生态中，中国团队选择以「框架定义者」的角色切入，展现了中国AI创新路径的独特性与韧性。

在全球底座模型的上半场较量之余，面向模型商业落地的下半场的竞争只会更加残酷。

这注定是一条没有捷径的拓荒之路，每一寸领地的攻克都需实打实的工程硬功，但这正是中国创业者在AI时代必须回答的「硬核命题」：不走捷径，方能定义未来。

刚拿下Agentic Memory SOTA，Feeling AI又上大分

CodeBrain-1，会动态调整计划与策略的「大脑」

为什么AI巨头都在，Terminal-Bench 2.0 上较量？

相关新闻