復旦大學NLP實驗室研發Game-RL,利用游戲豐富視覺元素和明確規則生成多模態可驗證推理數據,通過強化訓練提升視覺語言模型的推理能力。創新性地提出Code2Logic方法,系統化合成游戲任務數據,構建GameQA數據集,驗證了游戲數據在復雜推理訓練中的優勢。
現有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務場景往往是幾何或者圖表推理。這種領域上的局限,制約了VLM的探索和學習。
如何拓展VLM的RL訓練領域呢?
電子游戲視覺元素豐富,且規則明確而可驗證,因而是理想的多模態推理數據源。
由此,復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM。
