行业资讯

DeepSeek识图模式正式上线全平台

Heooo 06月19日00时00分 2 阅读

「DeepSeek在网页和App端推出识图模式,支持用户上传图片进行多模态理解,并公开了其背后的“以视觉原语思考”技术框架。」

DeepSeek多模态研究员Xiaokang Chen今日宣布,DeepSeek的识图模式已在网页和App端正式上线。这一新功能标志着DeepSeek从纯文本模型向多模态交互迈出了重要一步,用户现在可以通过上传图片让模型“看”世界,其能力远超简单的文字提取。

在DeepSeek的界面中,“识图模式”与已有的“快速模式”和“专家模式”并列,成为第三种可选交互模式。开启该模式后,用户可以直接上传图片文件,模型将基于图像内容进行理解、分析和回答。IT之家测试发现,目前App端的识图模式仍提示“图片理解功能内测中”,而网页端已无此提示,说明该功能在不同平台上的部署进度略有差异,但整体已面向公众开放。

伴随识图模式上线,DeepSeek在今年4月公开了其背后的多模态模型技术细节,披露了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。该框架旨在让模型在理解图像时,不依赖传统的全图编码,而是通过分解为视觉原语(如形状、纹理、空间关系等基本视觉元素)进行逐步推理。这种方法可能降低了多模态模型对大规模对齐数据的依赖,同时提升了模型在复杂视觉任务中的可解释性和泛化能力。

从技术角度看,DeepSeek的识图模式与当前主流的多模态大模型(如GPT-4V、Gemini等)形成差异化竞争。其“视觉原语思考”框架强调从底层视觉特征出发进行推理,而非简单地将图像转译为文本描述,这有助于模型在需要精细视觉理解的场景(如图表分析、医学影像辅助解读、工业质检等)中表现更优。此外,该框架的公开也展示了DeepSeek在开源和透明性方面的承诺,为开发者社区提供了宝贵的研究参考。

对于用户而言,识图模式的上线意味着DeepSeek的应用场景大幅扩展。例如,用户可以拍摄一张产品照片让模型识别物品信息,上传手写笔记进行文字转录,或者提交一张数据图表让模型分析趋势和异常点。未来,随着多模态能力的进一步迭代,DeepSeek有望在教育培训、内容创作、科研辅助等领域发挥更大作用。

# DeepSeek # 识图模式 # 多模态模型 # 视觉原语 # AI产品发布

来源:Heooo AI工具导航