DeepSeek開放識圖模式與其他主流大模型有啥不一樣？

2026年05月15日 09時41分科技日報

近日，DeepSeek開始灰度測試識圖模式，并大范圍開放給用戶體驗。

在具體的實測體驗中，開啟該模式后，用戶可以直接上傳圖片讓DeepSeek“看”世界，其能力邊界遠超簡單的文字提取。比如，網友上傳在博物館拍攝的不明文物并開啟“深度思考”后，模型不僅詳細描述該文物紋理材質，還準確推斷出其年代風格；面對時下流行的表情包或梗圖，它也能準確理解。

DeepSeek“開眼”，與其他主流大模型有何能力差異？有哪些優(yōu)勢和不足？記者就此采訪了有關專家。

第一問：DeepSeek識圖模式與豆包等其他大模型有何區(qū)別？

“與其他大模型相比，DeepSeek識圖模式的核心區(qū)別集中在技術路徑、算力消耗和交互邏輯上?！辟惖项檰柸斯ぶ悄芘c大數(shù)據研究中心分析師白潤軒說。

他解釋道，DeepSeek識圖模式以“視覺原語思考”為核心。這一核心框架主打精準空間推理和復雜場景解析，而非單純的文字OCR（光學字符識別）或基礎識別。而豆包等模型更側重結合聯(lián)網搜索提升識別時效性，多依賴傳統(tǒng)圖像編碼后進行文本理解，空間推理精度稍弱。

同時，這一框架在實際運行中“算力友好”。白潤軒介紹，DeepSeek處理800×800分辨率圖片僅消耗約90個tokens（詞元），遠低于GPT等主流模型，響應速度更快。

此外，DeepSeek識圖模式為獨立入口，專注純視覺理解，不額外啟用聯(lián)網功能，而豆包等大模型會自動聯(lián)動搜索。

第二問：“視覺原語思考”的核心創(chuàng)新點在哪？

伴隨識圖模式的上線，DeepSeek還公開了其背后的多模態(tài)模型技術細節(jié)，并公布了“視覺原語思考”核心框架。

“這一框架的核心創(chuàng)新點在于跳出主流模型‘堆分辨率’的思路，聚焦解決傳統(tǒng)多模態(tài)模型的‘指代鴻溝’困境?！卑诐欆幗忉?。

傳統(tǒng)多模態(tài)大模型在面對密集場景時存在一種名為“指代鴻溝”的困境，模型雖然能看見圖片，但在推理過程中用“左邊那個大的”等模糊的自然語言構建邏輯鏈時，很容易因描述不準導致注意力漂移。

而“視覺原語思考”框架將點、邊界框等空間視覺元素作為“思維”基本單元，融入模型推理全過程，這就像給模型裝上了一根“賽博手指”，讓AI在推理時能在“腦?！敝芯_指出目標物，邊想邊指，大幅提升復雜空間布局、密集計數(shù)等場景的推理精度。

第三問：目前存在的不足及改進方向是什么？

在白潤軒看來，DeepSeek識圖模式目前主要存在三項不足。

一是知識庫更新偏滯后。其模型訓練數(shù)據截至2025年，識別2025年底后發(fā)布的新型產品易出現(xiàn)型號誤判。

二是高難度場景表現(xiàn)還不穩(wěn)定。面對視錯覺圖片、復雜物體計數(shù)等反直覺任務時，模型給出的答案穩(wěn)定性不足，偶發(fā)邏輯崩潰。

三是功能邊界較窄。目前僅支持純視覺理解，暫不具備圖像生成、視頻理解及跨模態(tài)創(chuàng)作能力，且高并發(fā)時段偶有解析失敗、響應延遲的情況。

“建議后續(xù)加快知識庫迭代、優(yōu)化反直覺場景算法；同時拓展多模態(tài)功能，進一步提升系統(tǒng)穩(wěn)定性以適配更多用戶的需求?！卑诐欆幷f。

據科技日報

（責任編輯：梁艷）

【關閉窗口】

亚洲成人性图片,久久久七七七,女生和男生搞鸡,伊人久久中文字幕,男人天堂色综合,装甲战争电影在线观看完整版高清,xxx亚洲日本