亚洲成人性图片,久久久七七七,女生和男生搞鸡,伊人久久中文字幕,男人天堂色综合,装甲战争电影在线观看完整版高清,xxx亚洲日本

分享到:
 
 
當前位置: 首頁>>新聞頻道>>國際國內>>正文
DeepSeek開放識圖模式與其他主流大模型有啥不一樣?
2026年05月15日 09時41分   科技日報

近日,DeepSeek開始灰度測試識圖模式,并大范圍開放給用戶體驗。

在具體的實測體驗中,開啟該模式后,用戶可以直接上傳圖片讓DeepSeek“看”世界,其能力邊界遠超簡單的文字提取。比如,網友上傳在博物館拍攝的不明文物并開啟“深度思考”后,模型不僅詳細描述該文物紋理材質,還準確推斷出其年代風格;面對時下流行的表情包或梗圖,它也能準確理解。

DeepSeek“開眼”,與其他主流大模型有何能力差異?有哪些優(yōu)勢和不足?記者就此采訪了有關專家。

第一問:DeepSeek識圖模式與豆包等其他大模型有何區(qū)別?

“與其他大模型相比,DeepSeek識圖模式的核心區(qū)別集中在技術路徑、算力消耗和交互邏輯上?!辟惖项檰柸斯ぶ悄芘c大數(shù)據研究中心分析師白潤軒說。

他解釋道,DeepSeek識圖模式以“視覺原語思考”為核心。這一核心框架主打精準空間推理和復雜場景解析,而非單純的文字OCR(光學字符識別)或基礎識別。而豆包等模型更側重結合聯(lián)網搜索提升識別時效性,多依賴傳統(tǒng)圖像編碼后進行文本理解,空間推理精度稍弱。

同時,這一框架在實際運行中“算力友好”。白潤軒介紹,DeepSeek處理800×800分辨率圖片僅消耗約90個tokens(詞元),遠低于GPT等主流模型,響應速度更快。

此外,DeepSeek識圖模式為獨立入口,專注純視覺理解,不額外啟用聯(lián)網功能,而豆包等大模型會自動聯(lián)動搜索。

第二問:“視覺原語思考”的核心創(chuàng)新點在哪?

伴隨識圖模式的上線,DeepSeek還公開了其背后的多模態(tài)模型技術細節(jié),并公布了“視覺原語思考”核心框架。

“這一框架的核心創(chuàng)新點在于跳出主流模型‘堆分辨率’的思路,聚焦解決傳統(tǒng)多模態(tài)模型的‘指代鴻溝’困境?!卑诐欆幗忉?。

傳統(tǒng)多模態(tài)大模型在面對密集場景時存在一種名為“指代鴻溝”的困境,模型雖然能看見圖片,但在推理過程中用“左邊那個大的”等模糊的自然語言構建邏輯鏈時,很容易因描述不準導致注意力漂移。

而“視覺原語思考”框架將點、邊界框等空間視覺元素作為“思維”基本單元,融入模型推理全過程,這就像給模型裝上了一根“賽博手指”,讓AI在推理時能在“腦?!敝芯_指出目標物,邊想邊指,大幅提升復雜空間布局、密集計數(shù)等場景的推理精度。

第三問:目前存在的不足及改進方向是什么?

在白潤軒看來,DeepSeek識圖模式目前主要存在三項不足。

一是知識庫更新偏滯后。其模型訓練數(shù)據截至2025年,識別2025年底后發(fā)布的新型產品易出現(xiàn)型號誤判。

二是高難度場景表現(xiàn)還不穩(wěn)定。面對視錯覺圖片、復雜物體計數(shù)等反直覺任務時,模型給出的答案穩(wěn)定性不足,偶發(fā)邏輯崩潰。

三是功能邊界較窄。目前僅支持純視覺理解,暫不具備圖像生成、視頻理解及跨模態(tài)創(chuàng)作能力,且高并發(fā)時段偶有解析失敗、響應延遲的情況。

“建議后續(xù)加快知識庫迭代、優(yōu)化反直覺場景算法;同時拓展多模態(tài)功能,進一步提升系統(tǒng)穩(wěn)定性以適配更多用戶的需求?!卑诐欆幷f。

據科技日報

(責任編輯:梁艷)

關閉窗口

    主辦單位:忻州日報社 晉ICP10003702 晉新網備案證編號:14083039 晉公網安備 14090202000008號

    律師提示:本網站所刊登的各種信息,均為忻州在線版權所有,未經協(xié)議授權,禁止下載使用,凡不注明出處的將追究法律責任。

    地址:山西省忻州市長征西街31號 熱線:0350-3336505 電子郵箱:sxxzrbw@163.com