DeepSeek团队开源新模型DeepSeek-OCR：少量视觉token完成海量文本压缩

2025-10-20

2025年10月20日，DeepSeek-AI团队发布《DeepSeek-OCR：Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法，并开源了参数量为3B的DeepSeek-OCR模型。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成。DeepEncoder专为高分辨率输入设计，保持低计算激活并实现高压缩比。实验显示，当文本token数量不超过视觉token的10倍时，OCR精度可达97%；压缩比提高到20倍时，准确率仍保持约60%。在OmniDocBench测试中，DeepSeek-OCR使用100个视觉token就超过了GOT-OCR2.0，使用不到800个视觉token便优于MinerU2.0。在实际生产中，该模型可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据。