2025年10月20日,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法,并开源了参数量为3B的DeepSeek-OCR模型。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成。DeepEncoder专为高分辨率输入设计,保持低计算激活并实现高压缩比。实验显示,当文本token数量不超过视觉token的10倍时,OCR精度可达97%;压缩比提高到20倍时,准确率仍保持约60%。在OmniDocBench测试中,DeepSeek-OCR使用100个视觉token就超过了GOT-OCR2.0,使用不到800个视觉token便优于MinerU2.0。在实际生产中,该模型可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据。