OpenAI推出开源医疗大模型测试评估集HealthBench,该评估集由262名全球医生设计,包含48562项评分标准,采用多轮对话测试,更贴近真实医疗场景。HealthBench推动了AI系统在医疗领域的性能提升,例如GPT-4.1nano在成本降低25倍的同时,性能超越了GPT-4o。