Olmo Hybrid:理論から実践へ、そして再び理論へ

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 非トランスフォーマー系(線形RNNや、再帰と注意を組み合わせたハイブリッド)アーキテクチャには有望さがある一方で、スケール時のリスクやコストに見合うか不明だった点を、理論と実験の両面から検証している。
  • ハイブリッドモデルは単に既存(トランスフォーマー/線形RNN)の表現力を継承するだけでなく、両者を超えるタスク(例:コード実行)も表現できることを理論的に示している。
  • 実装として、Olmo 3 7Bと概ね同等の7Bモデル「Olmo Hybrid」を学習し、スライディングウィンドウ層をGated DeltaNet(再帰系)に置き換えることで、プリトレーニングおよびミッドトレーニング評価でOlmo 3を上回ったと報告している。
  • ハイブリッドがトランスフォーマーよりもスケーリング効率が高いことを性能差の主要因として挙げつつ、特定の形式問題での表現力増加が下流タスクに効く理由について理論に立ち返り説明を試みている。
  • 結論として、ハイブリッド(注意+再帰)を単なる推論メモリ削減手段ではなく、プリトレーニングでのスケール性能を改善する“言語モデリングの基本拡張”として位置付けている。

概要: 最近の研究により、非トランスフォーマー型言語モデル、特に線形再帰ニューラルネットワーク(RNN)や、再帰と注意(attention)を混ぜ合わせたハイブリッドモデルの可能性が示されてきました。それでもなお、これら新しいアーキテクチャの潜在的な利点が、それらをスケールアップする際のリスクと労力に見合うのかについては、コンセンサスが得られていません。そこで本研究では、複数の観点から、純粋なトランスフォーマーに対するハイブリッドモデルの優位性を示す根拠を提示します。第一に、理論的には、ハイブリッドモデルはトランスフォーマーと線形RNNの表現力を単に継承するだけではなく、それらの両方を超えて、例えばコード実行のようなタスクを表現できることを示します。次に、この理論を実装に移し、7B(70億)パラメータのモデルであるOlmo Hybridを学習します。これは基本的にOlmo 3の7Bと同等ですが、スライディングウィンドウ層をGated DeltaNet層に置き換えています。実験により、Olmo Hybridは標準的な事前学習および学習途中(mid-training)の評価においてOlmo 3を上回り、制御された大規模設定のもとでハイブリッドモデルの利点が得られることを示します。さらに、ハイブリッドモデルはトランスフォーマーよりも有意に効率よくスケールすることを見出し、これが高い性能を説明します。しかし、特定の形式的問題に対する表現力が高いことが、なぜそれらとは無関係な下流タスクでのより良いスケーリングや優れた性能につながるのかは不明です。この見かけ上のギャップを説明するために、再び理論に立ち返り、表現力の向上がスケーリング効率の向上へと結びつく理由を論じ、そのループを完成させます。総合すると、本研究の結果は、注意層と再帰層を混ぜ合わせたハイブリッドモデルが、言語モデリングのパラダイムに対する強力な拡張であることを示唆しています。単に推論時のメモリを削減するだけでなく、事前学習の間により良くスケールする、より表現力の高いモデルを得るための根本的な方法としてです。