2026年5月28日,SuperCLUE发布最新中文大模型测评结果,覆盖21款主流模型,测评集包括数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制六大任务,共492题。结果显示,全球第一梯队由Gemini、GPT-5.5、Claude-Opus及Gemini-Flash四款海外模型占据,国产表现最优的三款模型DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro分数接近,全球排名集中在第五位附近,组成国内第一梯队。尽管与国际顶尖水平尚有差距,但国产模型进步显著,代码生成、数学推理等项目多次进入全球前列,且性价比优势突出。