DeepSeek正式跨入图文交互时代

科技
2026-05-10

5月9日消息，DeepSeek大范围开放"识图模式"入口，几乎所有测试账号均可使用。该功能并非简单的文字OCR识别，而是具备了图片理解能力——能看懂图表、识别物体、理解场景。不过截至发稿，功能入口仍标注"图片理解功能内测中"，官方尚未正式官宣全面开放。

先说功能本身。DeepSeek这次的识图，跟之前GPT-4o、Gemini的多模态能力走的是同一条路——不是把图片里的字抠出来，而是真的"理解"这张图在说什么。用户实测反馈，拍一张冰箱照片问"这些食材能做什么菜"，它能认出西红柿、鸡蛋、葱，然后给你出菜谱。这个体验确实比OCR强了一个代际。

但我得泼盆冷水。从测试反馈来看，DeepSeek的识图能力目前还停在"能用"的阶段，离"好用"差着一截。复杂图表的数据提取准确率不稳定，手写体识别偶尔翻车，多图关联理解还比较吃力。对比GPT-4o和Claude Opus，差距大概在半年到一年。这不是贬低，是实话——国产大模型追得很快，但追上和超越是两回事。

再说一个更关键的问题：DeepSeek为什么现在才上识图？

我跟几个做大模型的朋友聊过，多模态能力的训练成本是纯文本的3到5倍，而且高质量的图文配对数据极度稀缺。DeepSeek一直以"性价比"著称，V3和R1的推理成本压得很低，这次开识图，说明他们在算力和数据上终于攒够了家底。但你注意，它标的还是"内测"——大范围开放入口，但不敢说正式上线。这很DeepSeek，先让用户用起来，再慢慢修。

还有一层值得聊。DeepSeek上识图，直接受冲击的不是ChatGPT，是国内那批还没做好多模态的中小模型厂商。今年国产开源大模型全球下载量刚破100亿次，头部效应已经很明显了。DeepSeek每多一个功能，就多一道护城河。对用户来说是好事，对行业来说，洗牌又快了一步。

最后说句掏心窝的话。大模型能看图这件事，技术上不新鲜，商业上才刚开始。真正的杀手级应用不是"AI帮你识别冰箱里的菜"，而是工业质检、医疗影像、法律文书审核这些场景。DeepSeek这步迈得稳，但离改变行业还早。

别被"图文交互时代"这种标题唬住。时代没变，只是工具多了一双眼睛。

DeepSeek正式跨入图文交互时代

热门推荐

有商家承认快充“120W”只是型号

小酒馆降温打酒铺火了

人民日报:心机商标的忽悠成本太低了

人民币成原油贸易第二大结算货币

一夜之间数千上市公司董秘岗位空缺

快捷栏目导航

相关推荐

“钱交了就不管了”，这句话刺痛了多少想开店的人

清明节前AI纸扎热销

中金:黄金需求与价格存在修复空间

利润暴跌超90%!保时捷卖了布加迪

一季度中国GDP同比增长5.0%

DeepSeek正式跨入图文交互时代

热门推荐

快捷栏目导航

相关推荐

找内容,搜一搜