OLLM：オプションに基づく大規模言語モデル

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、従来の単一の次トークン予測を、離散潜在変数で選択される学習済みの「オプションの集合」に置き換える Options LLM（OLLM）を提案している。
OLLMは、出力ヘッドの手前にエンコーダとデコーダを追加する軽量なプラグイン型アーキテクチャとして設計されており、多くの事前学習済みLLMを最小限の追加学習パラメータで変換できる。
1.7Bパラメータのバックボーンに対し学習可能パラメータを1.56%に抑えつつ実験した結果、潜在変数を最適に選択すれば最終回答の正解率を約70%まで高められ、LoRAベースライン（最大約51%）を上回った。
さらに、潜在オプション空間上で生成を制御するコンパクトなポリシーを学習し、報酬最適化のサンプル効率を高め、追加のKL損失や手作業のアライメント損失ではなく構造的制約によってミスアラインメントを減らすことを示している。
著者らは、次トークンをオプション化することで数学推論における制御性・頑健性・効率が向上し、潜在空間でのポリシー学習がLLMに対するRLの有望な方向性であると結論づけている。

要旨: 本稿では、Options LLM (OLLM) を提案する。これは、標準的なLLMが行う単一の次トークン予測を、離散潜在変数によって添字付けされた extit{学習済みオプションの集合} に置き換える、シンプルで一般的な手法である。多様性を生み出すために温度やサンプリングのヒューリスティックに頼るのではなく、OLLMは変化を明示的にモデル化する。すなわち、小さな潜在空間が複数のもっともらしい次トークン・オプションをパラメータ化し、下流のポリシーによって選択または探索できるようにする。構造的には、OLLMは軽量な「プラグイン」であり、出力ヘッドの前に2つの層――エンコーダとデコーダ――を挿入することで、追加パラメータを最小限に抑えながら、ほぼ任意の事前学習済みLLMを変換できる。ここでは、1.7Bパラメータのバックボーンに対してOLLMを適用する（訓練可能なのはパラメータの $1.56$ のみ）。OpenMathReasoningで学習し、OmniMathで評価する。最先端のLoRA適応ベースラインは最終回答の正確性が最大 $51$ に達する一方で、OLLMのオプション集合は、最適な潜在選択により最大で約 $70$ まで到達できる。次に、生成を制御するために潜在を出力する、潜在空間内のコンパクトなポリシーを訓練する。低次元のオプション空間で動作することで、報酬最適化ははるかにサンプル効率が高くなり、また、よくあるミスアライメント（例：言語切り替え、退化した推論など）を大幅に低減できる。これは、ポリシーがSFT中に学習されたオプションに制約されるためである。重要なのは、このアライメントが追加のKL損失や手作りのアライメント損失ではなく、モデル構造に由来する点である。本研究の結果は、オプション化された次トークンモデリングが数学推論における制御性、頑健性、効率を高めることを示しており、LLMにおける強化学習に向けた有望な方向として、潜在空間でのポリシー学習を提示する。