DeepSeek开源V3.2-Exp 公开新稀疏注意力机制DSA
2 天前

2025年9月29日,DeepSeek发布新一代模型DeepSeek-V3.2-Exp并开源,参数量685B。该模型在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练推理效率。同日,寒武纪宣布适配该模型并开源vLLM-MLU推理引擎源码。

简体中文 English