ループ化されたトランスフォーマー内部状態における関係的嗜好のエンコーディング

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 新たなarXivの研究では、2.6Bの「ループ化トランスフォーマー」(Ouro-2.6B-Thinking)が、AnthropicのHH-RLHFデータセットと凍結された基底重みを用いて、反復的な内部状態を通じて人間の嗜好をどのようにエンコードするかを分析している。
  • 各反復における隠れ状態を使った軽量な評価ヘッドを学習すると、ペアワイズ設定で95.2%のテスト精度に到達し、モデル本体を変更しないままのフルバッチL-BFGSプローブ(84.5%)を上回る。
  • 著者らは、嗜好が主に関係的(リレーショナル)な形でエンコードされていることを見出している。ペアワイズ差分に対する線形プローブは有効(84.5%)である一方、独立な非線形評価器や独立な分類器は大きく弱く、ノイズの多いラベルを直接予測するというよりは内部整合性を反映している可能性が示唆される。
  • 実験とコントロールにより、アーキテクチャや最適化の詳細が、ペアワイズ評価器と点ごとの評価器の間で誤解を招く上限(ceiling)を作り得ることが示され、評価器のバイアスや退化したペアワイズ解を検出するための必須診断として「フリップテスト」が提案される。
  • コサイン学習率の「デッドゾーン」が意図せず早期終了(early stopping)のように機能しており、後のエポックではテスト精度が大きく低下した。さらにエポックをまたいだ分析では、反対称性は安定している一方で、符号反転率が採点者のバイアスと連動していることが示される。

要旨: 我々は、ループ型トランスフォーマーが内部反復状態においてどのように人間の嗜好を符号化するかを調査する。反復的洗練を備えた26億パラメータのループ型トランスフォーマーであるOuro-2.6B-Thinkingを用い、各ループ反復から隠れ状態を抽出し、Anthropic HH-RLHFデータセットにおける人間の嗜好を予測するための軽量な評価器ヘッド(約500万パラメータ)を学習する。対(ペア)評価器は、8,552件の未見例に対してテスト精度95.2%を達成し、ベースのモデルを完全に凍結したまま、フルバッチのL-BFGSプローブ(84.5%)を上回った。
我々の中心的な発見は、ループ状態が嗜好を主として関係(リレーショナル)として符号化しているという点である。ペア差分に対する線形プローブは84.5%を示し、最良の非線形の独立評価器はテスト精度65%にとどまり、線形の独立分類スコアは21.75%であって、偶然より下でかつ極性が反転している。正確に解釈すると、評価器はモデル内部の整合性プローブとして機能しており、ノイズの多い人間の注釈をどれだけうまく予測できるかではなく、Ouro自身が学習した価値体系が表現をどれほど安定して整理・構造化するかを測定している。
さらに、独立スコアリングにおける真の70%という上限を確立した体系的なアーキテクチャ探索についても記録し、縮退したペア解を防ぐために必要な50%の引き分け(引数入替)プロトコルが、ピーク時にペアワイズ訓練指標を約31ポイント低下させ、ペア評価器とポイント評価器が同じ上限を共有しているように見せかけてしまうことを示す。
最後に、エポック2におけるcosine学習率のデッドゾーンが偶然にも早期終了として働き、過学習によってテスト精度が95.2%から62.4%へと劣化する前に汎化ピークを温存していたことを示す。エポック間のフリップテスト分析では、反対称性の相関は安定している一方で、厳密な符号反転率は主に評価者のバイアスに追随することが分かる。ペア嗜好評価器に対する必須の診断として、フリップテストを提案する。