OpenAI在最新发布的GPT-4.1系列模型中,采用了ComplexFuncBench来评测其函数调用能力。ComplexFuncBench是由智谱团队提出的,专门用于评估大模型在复杂函数调用方面的能力。该测试基准主要考察大模型在128K长上下文下进行多步带约束的函数调用的表现。与现有的函数调用测试基准相比,ComplexFuncBench要求大模型对真实场景下的用户需求进行更细粒度的理解,并在此基础上进行多步推理的函数调用,这对模型的函数调用能力提出了更高的挑战。