仅 3B 参数量就实现了 97% 文本识别准确率与 10 倍 token 压缩比,DeepSeek-OCR 以更低成本、更高精度迎来了“AI 的 JPEG 时刻”。
近日,DeepSeek-OCR 已登陆尊龙凯时 - 人生就是搏!算力云平台,平台提供充足的算力支持,用户无需复杂配置,即可实现模型开箱即用。
图 | DeepSeek OCR
DeepSeek-OCR 本质上是一个多模态文档理解模型,核心创新在于用视觉压缩替代传统文字识别。
通俗来讲,就是通过将大量文本转化为不计入 Tokens 的图片,再用 OCR 技术实时读取,以极低成本绕过大模型的“记忆墙”(上下文长度及处理成本限制),让海量文本信息能低成本进入模型上下文窗口。这一创新与颠覆,主要源于:
✅ 光学上下文压缩技术
该技术创新性地将文档视为完整图像,通过视觉 token 进行压缩。实验数据显示,在 10 倍压缩比下,64 vis toks 仍保持近 97% 的还原准确率,这对于许多应用场景无疑是极具吸引力的。[1,2]
图 | 扩展 Blackwell 架构
横轴:Text Tokens in Per Page (Ground-truth) —— 每页真实文本的 Token 数量区间(从 600-700 到 1200-1300)。
纵轴左侧:Precision (%) —— OCR 识别精度。
纵轴右侧:Compression (×) —— 文本 Token 与视觉 Token 的压缩比例。
图 | Fox 基准测试中的压缩性能
同时,上述图表量化了模型精度与压缩比之间的平衡关系:
此外,对比 Qwen(绿色方块)、InternVL(蓝色三角)等动辄数千个视觉 Token 才能达到相近精度,DeepSeek OCR 系列模式(红色圆点)仅用十分之一甚至更少的视觉 Token,就实现了更高精度,验证了其“光学上下文压缩技术”在效率和精度上的双重突破。
图 | Omnidocbench 性能表现
横轴:Average Vision Tokens per Image(每幅图像的平均视觉 Token 数)—— 数值越小,代表视觉 Token 越少,压缩率越高。
纵轴:Overall Performance (Edit Distance)(编辑距离)—— 数值越小,说明识别结果与真实文本越接近。
✅ 双核架构 + 深度编解码
DeepSeek-OCR 采用了统一的端到端视觉-语言大模型(VVLM)架构,该架构由编码器和解码器组成:
图 | DeepSeek-OCR架构
当输入文档被切分为 n×16×16 个图像块后,由编码器负责提取图像特征,并对视觉表征进行 token 化及压缩,最终解码器基于图像 tokens 和提示词输出结果。
图 | DeepSeek-OCR 编码器
编码器是模型的核心,包含三个组件:一个以窗口注意力为主导的感知模块 SAM(8000 万参数)、一个具有密集全局注意力的知识模块 CLIP(3 亿参数),以及一个连接两者的 16 倍令牌压缩器,能在提取局部细节与全局语义的同时压缩特征量,平衡精度与效率。[1,2]
图 | DeepSeek-OCR 性能对比
其与解码器端采用 MoE 架构的 DeepSeek-3B(激活参数5.7 亿)相互配合,在准确率、效率和部署特性等关键性能指标上实现了媲美甚至超越大参数量模型的表现。
✅ 多分辨率自适应模式
为了满足不同视觉 token 数量下的解码需求,DeepSeek-OCR 基于动态插值位置编码和多分辨率模式训练,使 DeepEncoder支持原生分辨率 Tiny、Small、Base、Large 及动态分辨率Gundam 等超高清模式的适配。
图 | 多分辨率自适应模式
据测试,约 1000 字文档在 Small 模式下仅需 100 个视觉 token 即可还原,用户输入时可根据文档复杂度、硬件配置灵活选择 OCR 模式。
在金融研究领域,DeepSeek-OCR 能自动识别报告中的图表信息并提炼出结构化数据,帮助从业者快速提升工作效率、数据应用深度及决策准确性。[1,2]
对于书籍与文档,模型能对内容中的图像信息输出密集的文字说明,仅需一个提示词,就能实现自动化的图文内容识别与转写。
在 STEM 领域,模型已实现对复杂化学公式的识别,并将其转化为标准化 SMILES 格式(简化分子线性输入规范),让化学分子信息可被机器识别、跨场景复用,为科学研究提供便利。
同时,模型还具备识别二维几何图形的能力,通过提取图形表征输出完整信息。但由于几何图形中线段之间存在复杂的依赖关系,几何图形解析任务仍具有挑战性。
此外,模型仍保留了通用视觉理解方面的能力,如图像描述、目标检测、定位等。
从“识别图文”到“读懂逻辑”,DeepSeek-OCR 作为一款优秀的 OCR 工具为长文本处理开辟了低成本、高效率的新路径。
引用:
[ 1 ] http://arxiv.org/pdf/2510.18234v1
[ 2 ] http://arxiv.org/abs/2510.18234