智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破
3 小时前

DeepSeek近日发布了其旗舰模型DeepSeek-V4-Pro(1.6T参数)及高效模型DeepSeek-V4-Flash(284B参数)。由智源研究院牵头研发的众智FlagOS系统已全面适配这两款模型,并成功在8款以上AI芯片上完成了DeepSeek-V4-Flash的适配与推理部署,目前正推进DeepSeek-V4-Pro的迁移适配工作。DeepSeek-V4-Flash采用混合专家架构,支持长达100万token的上下文处理,在架构设计和预训练方法上具有显著特点。为支持多芯片适配,FlagOS突破了三大关键技术:通过FlagGems实现全算子替代,为o-group采用独立张量并行策略,以及实现“FP4+FP8混合精度”到BF16的精度转换。其中,FlagGems开源了高性能新算子,其性能超越原生算子。经过FlagOS适配后的模型,核心能力与原生版本保持一致,且部署过程极为简化。FlagOS 2.0技术底座为大模型的跨芯适配提供了全链路支持,包括高性能算子库FlagGems、统一AI编译器FlagTree、模型跨芯迁移发布工具FlagRelease,以及统一多芯片接入插件vLLM-plugin-FL。FlagOS已形成一套完整的开源技术体系,为开发者提供了强大的跨芯适配支持。

简体中文 English