OpenAI近期推出了名为SimpleQA的新开源基准,用于评估语言模型在回答事实性问题时的准确性。该基准旨在解决当前语言模型常生成错误或未经证实答案的问题,通过确保答案的正确性、多样性和挑战性来实现。SimpleQA采用简洁的问题和答案格式,便于评估,且已被实验证明对前沿模型如GPT-4等具有挑战性。但值得注意的是,SimpleQA的准确性目前仅限于短查询的事实导向问题。OpenAI希望通过开源SimpleQA推动AI研究,提高模型的可信度和可靠性,并已提供开源链接和论文供研究人员参考。
沪ICP备2022008883号-2