DeepSeek-OCR 的視覺文本壓縮(VTC)技術通過將文本編碼為視覺 Token,實現(xiàn)高達 10 倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出 VTCBench 基準測試,評估模型在視覺空間中的認知極限,包括信息檢索、關聯(lián)推理和長期記憶三大任務。
近期,DeepSeek-OCR 憑借其創(chuàng)新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發(fā)了技術圈的高度關注,以極少的視覺 Token 實現(xiàn)高效的文本信息編碼,為長文本處理開辟了新路徑。
這一突破性進展讓大模型處理超長文本的成本大幅降低,但也拋出了一個核心問題:當長文本被高度壓縮為 2D 圖像后,視覺語言模型(VLM)真的能理解其中的內(nèi)容嗎?
為了解答這一疑問,來自中科院自動化所、中國科學院香港創(chuàng)新研究院等機構的研究團隊推出了首個專門針對視覺 - 文本壓縮范式的基準測試 ——VTCBench。
與傳統(tǒng)大模型直接讀取成千上萬的純文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的 2D 圖像,再由視覺編碼器轉(zhuǎn)化為少量的視覺 Token。
該技術可實現(xiàn) 2 倍至 10 倍的 Token 壓縮率,顯著降低了長文本處理時的計算與顯存開銷。
VTCBench 現(xiàn)已在 GitHub 和 Huggingface 全面開源,其衍生版本 VTCBench-Wild 是一個統(tǒng)一的、全方位評估模型在復雜現(xiàn)實場景下視覺文本壓縮的魯棒性,現(xiàn)已集成到 VLMevalkit。
核心使命——衡量「看得見」之后的「看得懂」
目前的 VLM 也許能出色地完成 OCR 識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。
VTCBench 通過三大任務,系統(tǒng)性地評估模型在視覺空間中的認知極限:
VTC-Retrieval (信息檢索):在視覺「大?!怪袑ふ姨囟ㄊ聦嵉摹羔槨梗∟eedle-in-a-Haystack),測試模型對空間分布信息的捕捉能力;
VTC-Reasoning (關聯(lián)推理):挑戰(zhàn)模型在幾乎沒有文本重疊的情況下,通過關聯(lián)推理尋找事實,超越單純的詞匯檢索;
VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結構性信息衰減的能力。
此外,團隊同步推出了 VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復雜現(xiàn)實場景下的魯棒性。
揭秘視覺壓縮背后的認知瓶頸
測試結果呈現(xiàn)出顯著的 「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準捕捉開頭和結尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。
這證明了即使在視覺空間,模型依然存在嚴重的「空間注意力偏見」,是未來 VTC 架構優(yōu)化的關鍵方向。
行業(yè)洞察 —— 視覺壓縮是長文本的終局嗎?
通過對 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余種尖端模型的深度評測,可以發(fā)現(xiàn):
雖然 VTC 極大提升了效率,但現(xiàn)有 VLM 在復雜推理和記憶任務上的表現(xiàn)仍顯著弱于純文本 LLM;
消融實驗證明,信息密度是決定模型性能的關鍵因素,直接影響視覺編碼器的識別精度;
Gemini-3-Pro 在 VTCBench-Wild 上表現(xiàn)驚艷,其視覺理解能力已幾乎追平其純文本基準,證明了 VTC 是實現(xiàn)大規(guī)模長文本處理的極其可行的路徑!
總結
如果說傳統(tǒng)的長文本處理是「逐字閱讀」,那么, DeepSeek-OCR 所引領的 VTC 范式就是「過目成誦」的攝影式記憶。VTCBench 的出現(xiàn),正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。
來源: 機器之心Pro
撫順眾聯(lián)網(wǎng)絡公司轉(zhuǎn)載
撫順網(wǎng)絡公司 撫順網(wǎng)絡 撫順軟件公司
