DeepSeek多模态模型来了

AI
2026-05-01

DeepSeek多模态模型：打破参照鸿沟，开启新可能？

4月30日，DeepSeek在Github上发布多模态模型及技术报告，这一动作在AI领域激起不小涟漪。

DeepSeek多模态模型来了

主流多模态大语言模型（MLLMs）虽进展显著，但思维链范式多局限在语言学领域。近期研究虽尝试用高分辨率裁剪技术弥合感知鸿沟，却忽略了更根本的参照鸿沟。自然语言的模糊性，在面对复杂空间布局时，难以给出精确指引，导致严谨参照任务逻辑崩溃，这确实是当下多模态模型发展的痛点。

DeepSeek提出基于视觉原语的思考这一创新推理框架，把点、边界框等空间标记提升为“思维基本单元”，融入思考过程，让模型推理时能“指代”，把认知轨迹锚定在图像物理坐标中。这一思路很巧妙，直击要害，为解决参照鸿沟问题提供了新方向。

而且，DeepSeek的框架基于高度优化架构，视觉标记效率极高。即便模型规模紧凑、图像标记预算低，在具有挑战性的计数和空间推理基准测试上，也能与GPT - 5.4、Claude - Sonnet - 4.6和Gemini - 3 - Flash等前沿模型匹敌。这不仅证明了其技术实力，也为开发更高效、可扩展的System - 2类多模态智能指明了方向。

DeepSeek这次的多模态模型，让我们看到了AI发展的新可能。它没有盲目追求规模，而是从解决实际问题出发，探索更高效的路径。

DeepSeek多模态模型来了

DeepSeek多模态模型：打破参照鸿沟，开启新可能？

热门推荐

有商家承认快充“120W”只是型号

小酒馆降温打酒铺火了

人民日报:心机商标的忽悠成本太低了

一夜之间数千上市公司董秘岗位空缺

人民币成原油贸易第二大结算货币

快捷栏目导航

相关推荐

外国人涌入中国洗浴中心

网络表演加速从“流量驱动”转向“内容驱动”

伊简梅：14年深耕大健康，用2000+门店验证的形体管理加盟标杆

雷军：小米AI人才招聘专项正式启动

国产AI大模型集体涨价

DeepSeek多模态模型来了

DeepSeek多模态模型：打破参照鸿沟，开启新可能？

热门推荐

快捷栏目导航

相关推荐

找内容,搜一搜