DeepSeek于AI开源社区Hugging Face发布了新模型DeepSeek-Prover-V2-671B,参数高达6710亿。该模型采用更高效的safetensors文件格式,支持多种计算精度,便于快速、低资源消耗地训练和部署。据推测,该模型或为去年发布的Prover-V1.5的升级版。在架构上,DeepSeek-Prover-V2-671B使用DeepSeek-V3架构,混合专家(MoE)模式,包含61层Transformer和7168维隐藏层,支持超长上下文,最大位置嵌入达16.38万,并采用FP8量化技术提高推理效率。