DeepSeek多模态模型来了

  • AI

DeepSeek多模态模型:打破参照鸿沟,开启新可能?

4月30日,DeepSeek在Github上发布多模态模型及技术报告,这一动作在AI领域激起不小涟漪。

DeepSeek多模态模型来了

主流多模态大语言模型(MLLMs)虽进展显著,但思维链范式多局限在语言学领域。近期研究虽尝试用高分辨率裁剪技术弥合感知鸿沟,却忽略了更根本的参照鸿沟。自然语言的模糊性,在面对复杂空间布局时,难以给出精确指引,导致严谨参照任务逻辑崩溃,这确实是当下多模态模型发展的痛点。

DeepSeek提出基于视觉原语的思考这一创新推理框架,把点、边界框等空间标记提升为“思维基本单元”,融入思考过程,让模型推理时能“指代”,把认知轨迹锚定在图像物理坐标中。这一思路很巧妙,直击要害,为解决参照鸿沟问题提供了新方向。

而且,DeepSeek的框架基于高度优化架构,视觉标记效率极高。即便模型规模紧凑、图像标记预算低,在具有挑战性的计数和空间推理基准测试上,也能与GPT - 5.4、Claude - Sonnet - 4.6和Gemini - 3 - Flash等前沿模型匹敌。这不仅证明了其技术实力,也为开发更高效、可扩展的System - 2类多模态智能指明了方向。

DeepSeek这次的多模态模型,让我们看到了AI发展的新可能。它没有盲目追求规模,而是从解决实际问题出发,探索更高效的路径。


如涉及作品内容、版权及其他问题,请及时联系我们进行处理。联系邮箱:2465845211@qq.com