相互コトレーニング（RCT）：強い勾配ベースモデルと非微分モデルを強化学習で結合する

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習パラダイムが異なり統合が難しいLLMと非微分のRandom Forest（RF）分類器を結びつける相互コトレーニング（RCT）という枠組みを提案している。
強化学習を用いて双方向のフィードバックループを作り、RFの確率推定をLLMの改善に活用すると同時に、LLMの埋め込みをRFの特徴空間へ加えることでRF側にも恩恵を与える。
表形式データは標準化されたテキスト表現に組み替えられ、LLMが処理して有用な埋め込みを生成できるようにしている。
3つの医療データセットで、両モデルの性能が一貫して向上し、とりわけLLMで大きな改善が見られたことを示し、改善要因として反復的改良・ハイブリッド報酬設計・次元数制御を挙げている。
著者らはRCTを、互いに適合しにくいモデル系同士を相互適応によって活用するための一般的な仕組みとして位置付けている。

概要: 大規模言語モデル（LLM）と従来の機械学習手法は、予測モデリングにおいて補完的な強みを提供しますが、根本的に異なる表現と学習パラダイムにより、効果的な統合が困難です。LLMはテキストデータ上で勾配ベースの最適化に依存しますが、ランダムフォレスト（RF）のようなモデルは微分不可能な特徴の分割を用います。本研究では、強化学習を介してLLMとRF分類器を結び付ける、相互コトレーニング（reciprocal co-training）フレームワークを提案します。これにより、各モデルが相手からの信号を用いて改善する反復的なフィードバックループが構築されます。表形式データはLLM向けに標準化されたテキスト表現へ再構成され、その埋め込みがRFの特徴空間を拡張します。一方で、較正されたRF確率推定はフィードバック信号として機能し、これがLLMの強化学習における更新を導きます。3つの医療データセットにわたる実験により、両モデルに対して一貫した性能向上が示され、特にLLMで顕著な効果が見られます。アブレーション解析では、反復的な精緻化、ハイブリッドな報酬設計、次元数の制御が、これらの向上に共同で寄与していることが示されます。提案フレームワークは、双方向の適応を通じて互換性のないモデル系が互いの強みを活用できる、一般的なメカニズムを提供します。