近日,DeepSeek開始灰度測試識圖模式,并大范圍開放給用戶體驗。
在具體的實測體驗中,開啟該模式后,用戶可以直接上傳圖片讓DeepSeek“看”世界,其能力邊界遠超簡單的文字提取。比如,網友上傳在博物館拍攝的不明文物并開啟“深度思考”后,模型不僅詳細描述該文物紋理材質,還準確推斷出其年代風格;面對時下流行的表情包或梗圖,它也能準確理解。
DeepSeek“開眼”,與其他主流大模型有何能力差異?有哪些優(yōu)勢和不足?記者就此采訪了有關專家。
第一問:DeepSeek識圖模式與豆包等其他大模型有何區(qū)別?
“與其他大模型相比,DeepSeek識圖模式的核心區(qū)別集中在技術路徑、算力消耗和交互邏輯上?!辟惖项檰柸斯ぶ悄芘c大數(shù)據研究中心分析師白潤軒說。
他解釋道,DeepSeek識圖模式以“視覺原語思考”為核心。這一核心框架主打精準空間推理和復雜場景解析,而非單純的文字OCR(光學字符識別)或基礎識別。而豆包等模型更側重結合聯(lián)網搜索提升識別時效性,多依賴傳統(tǒng)圖像編碼后進行文本理解,空間推理精度稍弱。
同時,這一框架在實際運行中“算力友好”。白潤軒介紹,DeepSeek處理800×800分辨率圖片僅消耗約90個tokens(詞元),遠低于GPT等主流模型,響應速度更快。
此外,DeepSeek識圖模式為獨立入口,專注純視覺理解,不額外啟用聯(lián)網功能,而豆包等大模型會自動聯(lián)動搜索。
第二問:“視覺原語思考”的核心創(chuàng)新點在哪?
伴隨識圖模式的上線,DeepSeek還公開了其背后的多模態(tài)模型技術細節(jié),并公布了“視覺原語思考”核心框架。
“這一框架的核心創(chuàng)新點在于跳出主流模型‘堆分辨率’的思路,聚焦解決傳統(tǒng)多模態(tài)模型的‘指代鴻溝’困境?!卑诐欆幗忉?。
傳統(tǒng)多模態(tài)大模型在面對密集場景時存在一種名為“指代鴻溝”的困境,模型雖然能看見圖片,但在推理過程中用“左邊那個大的”等模糊的自然語言構建邏輯鏈時,很容易因描述不準導致注意力漂移。
而“視覺原語思考”框架將點、邊界框等空間視覺元素作為“思維”基本單元,融入模型推理全過程,這就像給模型裝上了一根“賽博手指”,讓AI在推理時能在“腦?!敝芯_指出目標物,邊想邊指,大幅提升復雜空間布局、密集計數(shù)等場景的推理精度。
第三問:目前存在的不足及改進方向是什么?
在白潤軒看來,DeepSeek識圖模式目前主要存在三項不足。
一是知識庫更新偏滯后。其模型訓練數(shù)據截至2025年,識別2025年底后發(fā)布的新型產品易出現(xiàn)型號誤判。
二是高難度場景表現(xiàn)還不穩(wěn)定。面對視錯覺圖片、復雜物體計數(shù)等反直覺任務時,模型給出的答案穩(wěn)定性不足,偶發(fā)邏輯崩潰。
三是功能邊界較窄。目前僅支持純視覺理解,暫不具備圖像生成、視頻理解及跨模態(tài)創(chuàng)作能力,且高并發(fā)時段偶有解析失敗、響應延遲的情況。
“建議后續(xù)加快知識庫迭代、優(yōu)化反直覺場景算法;同時拓展多模態(tài)功能,進一步提升系統(tǒng)穩(wěn)定性以適配更多用戶的需求?!卑诐欆幷f。
據科技日報
(責任編輯:梁艷)