10月27日?qǐng)?bào)道,10月25日,美團(tuán)開(kāi)源了其首款視頻生成大模型——LongCat-Video。該模型面向多任務(wù)視頻生成場(chǎng)景,旨在以統(tǒng)一架構(gòu)支持文生視頻、圖生視頻以及視頻續(xù)寫三種能力。
不同于以往針對(duì)單一任務(wù)訓(xùn)練的模型,LongCat-Video通過(guò)多任務(wù)聯(lián)合訓(xùn)練機(jī)制,在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。
此外,LongCat-Video重點(diǎn)突破了長(zhǎng)視頻生成難題。相比常見(jiàn)模型在長(zhǎng)時(shí)序生成中易出現(xiàn)的畫面漂移、色彩偏移等問(wèn)題,該模型通過(guò)在視頻續(xù)寫任務(wù)上的原生預(yù)訓(xùn)練,能夠持續(xù)生成數(shù)分鐘視頻內(nèi)容,同時(shí)保持較高的時(shí)間一致性與視覺(jué)穩(wěn)定性。

在推理效率方面,LongCat-Video借鑒了近年來(lái)的高效生成方法,采用“粗到細(xì)”兩階段生成策略:先生成480p、15fps的視頻,再細(xì)化至720p、30fps,并結(jié)合塊稀疏注意力機(jī)制和模型蒸餾,顯著降低了高分辨率生成的計(jì)算開(kāi)銷,視頻生成的推理速度提升到原來(lái)的10.1倍,提速幅度超900%。
在后訓(xùn)練階段,團(tuán)隊(duì)引入多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLHF)優(yōu)化方案,利用組相對(duì)策略優(yōu)化(GRPO)方法綜合多維度獎(jiǎng)勵(lì)信號(hào),進(jìn)一步提升模型在多樣化任務(wù)下的表現(xiàn)。
美團(tuán)已在多項(xiàng)公開(kāi)與內(nèi)部測(cè)評(píng)中將LongCat-Video與其他視頻生成大模型進(jìn)行了比較。在VBench公開(kāi)基準(zhǔn)測(cè)試中,LongCat-Video總得分僅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識(shí)理解”一項(xiàng)中以70.94%的得分位居所有開(kāi)源模型第一,也超過(guò)了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。

目前,美團(tuán)LongCat-Video已同步開(kāi)放代碼、模型權(quán)重及關(guān)鍵模塊,模型技術(shù)報(bào)告也已經(jīng)發(fā)布。