DeepSeek正式跨入图文交互时代
5月9日消息,DeepSeek大范围开放"识图模式"入口,几乎所有测试账号均可使用。该功能并非简单的文字OCR识别,而是具备了图片理解能力——能看懂图表、识别物体、理解场景。不过截至发稿,功能入口仍标注"图片理解功能内测中",官方尚未正式官宣全面开放。
先说功能本身。DeepSeek这次的识图,跟之前GPT-4o、Gemini的多模态能力走的是同一条路——不是把图片里的字抠出来,而是真的"理解"这张图在说什么。用户实测反馈,拍一张冰箱照片问"这些食材能做什么菜",它能认出西红柿、鸡蛋、葱,然后给你出菜谱。这个体验确实比OCR强了一个代际。
但我得泼盆冷水。从测试反馈来看,DeepSeek的识图能力目前还停在"能用"的阶段,离"好用"差着一截。复杂图表的数据提取准确率不稳定,手写体识别偶尔翻车,多图关联理解还比较吃力。对比GPT-4o和Claude Opus,差距大概在半年到一年。这不是贬低,是实话——国产大模型追得很快,但追上和超越是两回事。
再说一个更关键的问题:DeepSeek为什么现在才上识图?
我跟几个做大模型的朋友聊过,多模态能力的训练成本是纯文本的3到5倍,而且高质量的图文配对数据极度稀缺。DeepSeek一直以"性价比"著称,V3和R1的推理成本压得很低,这次开识图,说明他们在算力和数据上终于攒够了家底。但你注意,它标的还是"内测"——大范围开放入口,但不敢说正式上线。这很DeepSeek,先让用户用起来,再慢慢修。
还有一层值得聊。DeepSeek上识图,直接受冲击的不是ChatGPT,是国内那批还没做好多模态的中小模型厂商。今年国产开源大模型全球下载量刚破100亿次,头部效应已经很明显了。DeepSeek每多一个功能,就多一道护城河。对用户来说是好事,对行业来说,洗牌又快了一步。
最后说句掏心窝的话。大模型能看图这件事,技术上不新鲜,商业上才刚开始。真正的杀手级应用不是"AI帮你识别冰箱里的菜",而是工业质检、医疗影像、法律文书审核这些场景。DeepSeek这步迈得稳,但离改变行业还早。
别被"图文交互时代"这种标题唬住。时代没变,只是工具多了一双眼睛。
