Redis 之父发布 DeepSeek V4 Flash 专用推理引擎 ds4
3 小时前

近日,Redis创始人Salvatore Sanfilippo(antirez)发布了专为DeepSeek V4 Flash打造的本地推理引擎ds4。该引擎定位明确,非通用型,而是窄而深的专用实现,核心设计围绕Metal GPU展开,CPU路径仅用于调试。ds4.c完全基于苹果Metal API开发,仅支持Apple Silicon芯片设备,摒弃了对Nvidia或AMD显卡的兼容性。项目代码库精简,追求极致轻量化与性能专注。测试数据显示,在128GB内存的MacBook Pro M3 Max上,2-bit量化模型配合32K上下文窗口,短提示预填充速度达58.52 token/s,生成速度26.68 token/s。ds4.c通过非对称量化、KV缓存磁盘化等技术,实现了高性能本地推理,为AI模型与硬件结合提供了新思路。

简体中文 English