盡管大型語言模型(LLM)擁有廣泛的世界知識和強大的推理能力,被廣泛視為優秀的少樣本學習者,但在處理需要大量示例的上下文學習(ICL)時仍存在明顯局限。
已有工作表明,即使提供多達上百甚至上千條示例,LLM 仍難以從中有效學習規律,其表現往往很快進入平臺期,甚至對示例的順序、標簽偏差等較為敏感。在利用上下文學習解決新任務時,LLM 往往更依賴于自身的強先驗以及示例的表面特征,而難以真正挖掘出示例中潛在的因果機制或統計依賴。
這項名為 MachineLearningLM 的新研究突破了這一瓶頸。該研究提出了一種輕量且可移植的「繼續預訓練」框架,無需下游微調即可直接通過上下文學習上千條示例,在金融、健康、生物信息、物理等等多個領域的二分類 / 多分類任務中的準確率顯著超越基準模型(Qwen-2.5-7B-Instruct)以及最新發布的 GPT-5-mini。
相比于已有的用于表格數據的機器學習方法,MachineLearningLM 幾乎完全保留了 LLM 通用能力,這意味著它可以無縫集成到更復雜的對話工作流中。
- 論文鏈接: https://arxiv.org/abs/2509.06806
- 模型和數據集:https://huggingface.co/MachineLearningLM
- 代碼:https://github.com/HaoAreYuDong/MachineLearningLM
核心創新一:百萬級合成任務「授人以漁」
研究團隊旨在賦予 LLM 一種「舉一反三」的元能力 —— 不依賴對真實任務數據的機械記憶,而是通過海量且多樣化的合成任務,從根本上訓練模型在大量上下文示例中挖掘規律并進行預測的能力。
傳統的指令微調方法通常基于有限規模(約為千數量級)的真實任務數據,這在很大程度上限制了模型向新任務的泛化能力。與之相比,MachineLearningLM 構建了一個超過 300 萬合成任務的大規模預訓練語料庫。
任務生成器基于結構因果模型(Structural Causal Model, SCM)來采樣生成二分類及多分類任務。SCM 通過有向無環圖(DAG)和結構方程(采用神經網絡與樹模型實現)明確定義變量間的因果關系,能夠精確控制特征的邊際分布、類型(如數值型或類別型)以及標簽生成機制。
該方法確保預訓練數據與下游真實評估集沒有任何重疊,從而保證評估過程對模型泛化能力的檢驗具備充分公平性。同時,通過控制示例數量從數個到 1024 個不等,該機制能夠專門訓練模型處理「多示例」場景的推理能力。