DeepSeek识图模式正式上线全平台

DeepSeek多模态研究员Xiaokang Chen今日宣布，DeepSeek的识图模式已在网页和App端正式上线。这一新功能标志着DeepSeek从纯文本模型向多模态交互迈出了重要一步，用户现在可以通过上传图片让模型“看”世界，其能力远超简单的文字提取。

在DeepSeek的界面中，“识图模式”与已有的“快速模式”和“专家模式”并列，成为第三种可选交互模式。开启该模式后，用户可以直接上传图片文件，模型将基于图像内容进行理解、分析和回答。IT之家测试发现，目前App端的识图模式仍提示“图片理解功能内测中”，而网页端已无此提示，说明该功能在不同平台上的部署进度略有差异，但整体已面向公众开放。

伴随识图模式上线，DeepSeek在今年4月公开了其背后的多模态模型技术细节，披露了一种名为“Thinking with Visual Primitives（以视觉原语思考）”的核心框架。该框架旨在让模型在理解图像时，不依赖传统的全图编码，而是通过分解为视觉原语（如形状、纹理、空间关系等基本视觉元素）进行逐步推理。这种方法可能降低了多模态模型对大规模对齐数据的依赖，同时提升了模型在复杂视觉任务中的可解释性和泛化能力。

从技术角度看，DeepSeek的识图模式与当前主流的多模态大模型（如GPT-4V、Gemini等）形成差异化竞争。其“视觉原语思考”框架强调从底层视觉特征出发进行推理，而非简单地将图像转译为文本描述，这有助于模型在需要精细视觉理解的场景（如图表分析、医学影像辅助解读、工业质检等）中表现更优。此外，该框架的公开也展示了DeepSeek在开源和透明性方面的承诺，为开发者社区提供了宝贵的研究参考。

对于用户而言，识图模式的上线意味着DeepSeek的应用场景大幅扩展。例如，用户可以拍摄一张产品照片让模型识别物品信息，上传手写笔记进行文字转录，或者提交一张数据图表让模型分析趋势和异常点。未来，随着多模态能力的进一步迭代，DeepSeek有望在教育培训、内容创作、科研辅助等领域发挥更大作用。