今天必須給你們嘮嘮科研界的一項超酷新成果 ——Flow-GRPO!這東西可不得了,它就像是給圖像生成模型打了一針 “超級進化劑”,直接讓它們從 “青銅” 一路飆升到 “王者”。想知道它是怎么做到的嗎?快搬好小板凳,聽我細細道來!
圖像生成模型的 “成長煩惱”
現(xiàn)在的圖像生成模型,比如基于流匹配(Flow matching)的那些,理論基礎那叫一個扎實,生成的高質(zhì)量圖像也讓人眼前一亮。但它們也有自己的 “小煩惱”,遇到復雜場景,像要安排好多物體、處理各種屬性和關系,或者是在圖像里準確渲染文本的時候,就有點 “抓瞎” 了。
論文地址:https://www.arxiv.org/pdf/2505.05470
項目地址:https://github.com/yifan123/flow_grpo
而在線強化學習(online RL)在提升大語言模型推理能力方面,那效果是杠杠的??芍按蠹抑饕?RL 用在早期的擴散生成模型,還有像直接偏好優(yōu)化這類離線 RL 技術上,卻很少有人探索在線 RL 能不能給流匹配生成模型帶來新突破。這就好比明明有一把很厲害的鑰匙,卻沒人想到去開這扇門。現(xiàn)在,F(xiàn)low-GRPO 就來 “撬門” 啦!
用 RL 訓練流模型,那挑戰(zhàn)可不小。首先,流模型的生成過程就像一條設定好的軌道,基于確定性的常微分方程(ODE),一路按部就班,在推理的時候沒法隨機采樣。但 RL 呢,就像一個好奇寶寶,得靠隨機嘗試不同的行動,再根據(jù)反饋來學習。這倆的 “脾氣” 完全不一樣,一個要規(guī)規(guī)矩矩,一個要到處探索,怎么能湊到一塊呢?
其次,在線 RL 訓練得高效采樣收集數(shù)據(jù)才行,可流模型生成每個樣本都要折騰好多迭代步驟,就像蝸牛爬一樣慢,采樣效率低得可憐。模型越高級、越復雜,這個問題就越嚴重,簡直是 “雪上加霜”。所以,要想讓 RL 在圖像或視頻生成這些任務里發(fā)揮作用,提高采樣效率就成了關鍵中的關鍵。
Flow-GRPO 來 “救場” 啦!
為了解決這些難題,F(xiàn)low-GRPO 閃亮登場!它就像一個超級 “魔法工具箱”,里面裝著兩個神奇的 “魔法” 策略。
第一個魔法是 “ODE 到 SDE 轉(zhuǎn)換”。這就好比把一輛只能在固定軌道上行駛的火車,改裝成了能在各種道路上自由穿梭的汽車。Flow-GRPO 把原本確定性的常微分方程,轉(zhuǎn)變成了隨機微分方程(SDE),而且還能保證在每個時間步都和原來模型的邊際分布一樣。這樣一來,就給模型引入了隨機性,讓它能像 RL 需要的那樣去探索不同的可能性。想象一下,以前模型生成圖像就像在一條直直的路上走,現(xiàn)在有了這個轉(zhuǎn)換,它就能在各種不同的小路上探索,找到更合適的生成方式,是不是很神奇?
第二個魔法是 “降噪減少策略”。訓練的時候,F(xiàn)low-GRPO 就像一個聰明的 “時間管理大師”,它減少了降噪步驟,這樣就能快速收集訓練數(shù)據(jù)。但在推理的時候,它又會恢復到原來完整的降噪步驟,保證生成高質(zhì)量的樣本。這就好比跑步,訓練的時候為了快速適應環(huán)境,就先小步快跑;比賽的時候,再按照正常的節(jié)奏大步跑,既能保證速度,又能保證質(zhì)量。
Flow-GRPO 實戰(zhàn)表現(xiàn)如何?
Flow-GRPO 到底有多厲害?研究人員用它在各種文本到圖像(T2I)的任務上做了測試,結(jié)果簡直驚艷!
在組合圖像生成任務上,用 GenEval 基準測試來評估。這任務可不簡單,得精確安排物體、控制屬性,就像搭樂高一樣,每個零件都要放對地方。Flow-GRPO 讓 Stable Diffusion3.5Medium(SD3.5-M)模型的準確率從63% 一路飆升到95%,直接把 GPT-4o 模型都給比下去了!以前模型生成的圖像,可能物體數(shù)量不對,顏色、位置也亂七八糟,現(xiàn)在有了 Flow-GRPO,這些問題都迎刃而解,生成的圖像就像被施了魔法一樣精準。
視覺文本渲染任務中,SD3.5-M 模型在 Flow-GRPO 的加持下,準確率從59% 提高到了92%。以前模型可能會把文本渲染得歪歪扭扭、缺胳膊少腿,現(xiàn)在卻能準確無誤地把文本呈現(xiàn)在圖像里,就像給圖像配上了最完美的文字說明,效果提升不是一星半點。
在與人類偏好對齊的任務里,F(xiàn)low-GRPO 同樣表現(xiàn)出色。用 PickScore 作為獎勵模型來評估,它能讓模型生成的圖像更符合人類的喜好。而且,在提升能力的同時,幾乎沒有出現(xiàn)獎勵作弊的情況。啥是獎勵作弊呢?就是有些模型為了提高獎勵分數(shù),犧牲了圖像質(zhì)量和多樣性,生成的圖片要么模糊不清,要么千篇一律。但 Flow-GRPO 不一樣,它就像是個 “正義使者”,保證圖像質(zhì)量和多樣性的同時,還能讓獎勵分數(shù)蹭蹭往上漲。
研究人員還對 Flow-GRPO 進行了各種分析。比如說,在處理獎勵作弊問題上,他們嘗試了好多方法。一開始把各種獎勵模型組合在一起,結(jié)果發(fā)現(xiàn)圖像出現(xiàn)了局部模糊、多樣性降低的問題,就像給美麗的風景圖蒙上了一層霧,啥都看不清。后來用 KL 約束這個方法,效果就好多啦。調(diào)整好 KL 系數(shù)后,既能優(yōu)化任務特定的獎勵,又不會損害模型的整體性能,就像給模型找到了一個完美的 “平衡點”。
還有降噪減少策略的效果分析。減少訓練時的數(shù)據(jù)收集時間步長,從40步減少到10步,結(jié)果發(fā)現(xiàn)訓練速度提高了4倍多,而且最終的獎勵分數(shù)一點也沒受影響。就好比開車,以前要慢悠悠地開好久才能到目的地,現(xiàn)在換了條更順暢的路,一下子就到了,還不耽誤事兒!
噪聲水平對模型也有影響。SDE 里的噪聲水平如果設置得合適,就能提高圖像的多樣性和探索能力,對 RL 訓練特別有幫助。但要是噪聲太大,圖像質(zhì)量就會下降,就像往一幅精美的畫上隨意潑墨,好好的畫就毀了。研究發(fā)現(xiàn),把噪聲水平設置在0.7左右的時候效果最佳,能在保證圖像質(zhì)量的同時,讓模型更好地探索各種可能性。
Flow-GRPO 的泛化能力也很強。在一些沒見過的場景測試中,它能準確捕捉物體的數(shù)量、顏色和空間關系,就算是沒訓練過的物體類別,它也能應對自如。從訓練生成2-4個物體,到測試時生成5-6個物體,它都能輕松搞定,就像一個學習能力超強的學生,舉一反三,啥題都會做!
未來展望與挑戰(zhàn)
雖然 Flow-GRPO 在文本到圖像的任務里表現(xiàn)得非常出色,但研究人員并沒有滿足于此。他們已經(jīng)把目光投向了更廣闊的領域 —— 視頻生成。不過,這也帶來了一些新的挑戰(zhàn)。
首先是獎勵設計。在視頻生成里,簡單的獎勵模型可不夠用了,得想出更復雜、更有效的獎勵模型,才能讓生成的視頻既真實又流暢。這就好比給電影打分,不能只看畫面好不好看,還要考慮劇情、音效等好多方面。
其次是平衡多個獎勵。視頻生成要優(yōu)化好多目標,像真實性、流暢性、連貫性等等,這些目標有時候就像幾個調(diào)皮的小孩,各有各的想法,很難平衡。研究人員得想辦法讓它們 “和諧共處”,這可不容易。
最后是可擴展性。視頻生成比圖像生成更費資源,就像吃得多的 “大胃王”。要把 Flow-GRPO 應用到視頻生成中,就得找到更高效的數(shù)據(jù)收集和訓練方法,不然 “資源小水管” 可滿足不了它的 “大胃口”。
但這些挑戰(zhàn)并不能阻擋 Flow-GRPO 前進的腳步。相信在研究人員的努力下,未來 Flow-GRPO 不僅能在圖像生成領域繼續(xù)發(fā)光發(fā)熱,還能在視頻生成等更多領域創(chuàng)造奇跡,給我們帶來更多的驚喜!說不定以后我們看的電影、玩的游戲里的畫面,都是 Flow-GRPO 幫忙生成的呢!讓我們一起拭目以待吧!