蘋果放大招！FastVLM 讓視覺語言模型在 iPhone 上飛速 “狂飆”

2025-05-12 顏悅眉 371 AIbase基地

蘋果最近又搞了個大新聞，偷偷摸摸地發(fā)布了一個叫 FastVLM 的模型。聽名字可能有點懵，但簡單來說，這玩意兒就是讓你的 iPhone 瞬間擁有了“火眼金睛”，不僅能看懂圖片里的各種復雜信息，還能像個段子手一樣跟你“貧嘴”!而且最厲害的是，它速度快到飛起，蘋果官方宣稱，首次給你“貧嘴”的速度比之前的一些模型快了足足85倍!這簡直是要逆天啊!

視覺語言模型的 “成長煩惱”

現(xiàn)在的視覺語言模型，就像個不斷進化的小天才，能同時理解圖像和文本信息。它的應用可廣了，從幫咱們理解圖片里的內(nèi)容，到輔助創(chuàng)作圖文并茂的作品，都不在話下。一般來說，VLMs 是把預訓練的視覺骨干網(wǎng)絡提取的視覺 token，通過投影層傳給預訓練的大語言模型（LLM）。之前好多研究都在探索怎么訓練和微調(diào)這幾個組件，讓模型變得更強。

研究發(fā)現(xiàn)，提高圖像分辨率能顯著提升 VLMs 在一些任務上的表現(xiàn)，尤其是處理那些文字和圖表豐富的圖像時。你想啊，圖片越清晰，模型能 “看” 到的細節(jié)就越多，理解起來不就更準確嘛!但這也帶來了不少麻煩。一方面，很多預訓練的視覺編碼器不太支持高分辨率圖像，強行用的話，預訓練效率會變得超級低。為了解決這個問題，有人嘗試持續(xù)預訓練視覺骨干網(wǎng)絡，讓它適應高分辨率;還有人把圖像切成小塊，像拼圖一樣分別處理，不過這也挺麻煩的。

另一方面，高分辨率推理的計算成本太高了!不管是直接進行高分辨率推理，還是把圖像切塊后進行低分辨率推理，都會產(chǎn)生很大的延遲。而且高分辨率圖像生成的 token 更多，這又增加了 LLM 處理這些 token 的時間，導致整個模型輸出首個 token 的時間（TTFT）變長。這就好比你讓一個人一下子處理太多任務，他肯定會手忙腳亂，速度變慢。

FastVLM 來 “救場”

面對這些難題，蘋果的研究團隊搞出了 FastVLM，它就像是給 VLMs 注入了一劑 “加速藥水”，能在保證性能的同時，大幅提升運行效率。

架構設計:另辟蹊徑的 “智慧結(jié)晶”

FastVLM 的核心是 FastViTHD 這個新型混合視覺編碼器。在探索 VLM 架構時，團隊發(fā)現(xiàn)混合視覺編碼器（卷積層加上 Transformer 塊）是個不錯的選擇。卷積層可以輕松處理不同分辨率的圖像，Transformer 塊則能進一步優(yōu)化視覺 token，讓 LLM 更好地理解。他們用的 FastViT 就是基于這種架構，經(jīng)過 MobileCLIP 預訓練，效果還不錯。比如，在相同的 VLM 基準測試中，F(xiàn)astViT 生成視覺 token 的速度比 ViT 模型快4倍多，準確率也更高。

不過，團隊并沒有滿足于此。為了讓模型在高分辨率下表現(xiàn)更出色，他們又設計了 FastViTHD。這個新架構在 FastViT 的基礎上做了不少改進。它增加了一個額外的階段和下采樣層，讓 self - attention 層處理的張量更小，這樣就能減少圖像編碼延遲，還能為計算密集型的 LLM 解碼器生成更少的 token，從而降低 TTFT。打個比方，這就像是給模型的 “信息高速公路” 拓寬了車道，還優(yōu)化了交通規(guī)則，讓信息傳遞得又快又穩(wěn)。

訓練與優(yōu)化:精心打磨的 “成長之路”

訓練 FastVLM 就像培養(yǎng)一個優(yōu)秀的運動員，需要精心規(guī)劃。研究人員采用了兩階段訓練法，和 LLaVA -1.5的設置類似。第一階段，只訓練投影儀，用的是 LLaVA -558K 對齊數(shù)據(jù)集，訓練時圖像分辨率和骨干網(wǎng)絡預訓練分辨率一致。第二階段，用 LLaVA -665K 監(jiān)督微調(diào)數(shù)據(jù)集，把模型的所有模塊都拿來訓練，這時圖像分辨率就設置成目標分辨率。

為了讓模型更好地適應不同的任務和數(shù)據(jù)集，研究人員還做了很多優(yōu)化。比如，他們嘗試了多尺度特征提取，把網(wǎng)絡不同階段的信息整合起來，讓模型能更好地理解圖像。就像我們看一幅畫，不僅要看整體，還要關注細節(jié)，多尺度特征提取就起到了這個作用。此外，他們還對比了不同的池化策略和連接器設計，發(fā)現(xiàn)用深度卷積進行池化能讓模型性能更優(yōu)。

實驗結(jié)果:實力碾壓的 “高光時刻”

在實驗環(huán)節(jié)，F(xiàn)astVLM 簡直就是 “學霸”，成績相當亮眼!研究人員在主流基準測試中對 FastVLM 進行了全面評估，包括 GQA、ScienceQA、TextVQA 等多個任務。結(jié)果顯示，在和其他模型的對比中，F(xiàn)astVLM 優(yōu)勢明顯。

和基于卷積的 ConvLLaVA 相比，同樣的 LLM 和相似的訓練數(shù)據(jù)規(guī)模下，F(xiàn)astVLM 在 TextVQA 任務上性能提升了8.4%，在 DocVQA 任務上提升了12.5%，而且速度還快了22%。在高分辨率下，這種優(yōu)勢更加明顯，F(xiàn)astVLM 的速度比 ConvLLaVA 快了2倍，在多個基準測試中都取得了更好的成績。

和其他用多個視覺編碼器的模型比，F(xiàn)astVLM 也毫不遜色。像 Cambrian -1用了多個視覺編碼器，視覺編碼在總 TTFT 中占比很大，而 FastVLM 用單個編碼器，不僅速度比它快7.9倍，在相似的視覺指令調(diào)優(yōu)數(shù)據(jù)集訓練下，性能還超過了 Cambrian -1。就算是在對視覺 token 數(shù)量很敏感的文本豐富型評估任務中，F(xiàn)astVLM 也能憑借更少的視覺 token 取得更好的成績。

FastVLM 的優(yōu)勢與意義

FastVLM 的出現(xiàn)，給視覺語言模型領域帶來了新的希望。它最大的優(yōu)勢就是在保證模型性能的同時，大幅提升了運行效率。以前的模型在處理高分辨率圖像時，要么速度慢，要么準確率低，F(xiàn)astVLM 很好地解決了這些問題。

對于我們普通用戶來說，這意味著以后在手機上使用相關應用時，體驗會大大提升。比如用圖像搜索功能，以前可能要等半天才能出結(jié)果，現(xiàn)在用搭載 FastVLM 的應用，瞬間就能得到答案。對于開發(fā)者來說，F(xiàn)astVLM 提供了一個高效的模型框架，能讓他們開發(fā)出更強大、更智能的應用。

從更宏觀的角度看，F(xiàn)astVLM 的成功也為未來的研究指明了方向。它證明了通過優(yōu)化架構和訓練方法，可以在資源有限的設備上實現(xiàn)高性能的視覺語言模型。相信在不久的將來，會有更多基于 FastVLM 的創(chuàng)新應用出現(xiàn)，讓我們的生活變得更加智能和便捷。

論文地址：https://www.arxiv.org/pdf/2412.13303

項目地址：https://github.com/apple/ml-fastvlm

標簽：蘋果 FastVLM 視覺語言模型 iPhone

本文地址： http://www.wealth-hacks.com/ai/20250512/458.html