模倣するな、強化せよ:信念(ベリーフ)更新による逐次分類

arXiv cs.LG / 2026/4/27

📰 ニュースModels & Research

要点

  • この論文は、標準的な教師あり分類が単一パスで固定された正解ラベルをそのまま模倣するため、入力の難しさに応じた計算量の使い分けができず、評価時に過信な予測を招き得ると主張しています。
  • Reinforced Iterative Classification(RIC)として、反復的にクラス確率の分布を更新する再帰エージェントを、強化学習(RL)で学習させる新しい手法を提案しています。
  • 価値関数(value function)で、さらにどれだけ改善できるかを推定し、自然な停止条件(ハルティング基準)を与えることで「いつでも使える(anytime)」分類器を実現します。
  • 著者らは理論的に、反復RLの枠組みが交差エントロピーと同等の最適予測を回復できることを示し、実験では教師ありベースラインと同等の精度を保ちつつ較正(calibration)を改善し、入力に応じて計算量を適応的に配分できることを報告しています。

要旨: 標準的な教師あり分類は、完璧なオラクルによって与えられた正確なラベルをモデルに模倣させることで学習します。この模倣は1回のパスで起こるため、入力の複雑さが変わってもモデルは固定された計算予算に制限されます。さらに、硬直した学習目的は、学習データに対して絶対的な確信をモデルに表現させることを強制し、その結果、評価時には過信のある予測が生じます。我々は、模倣的な目的を強化学習(RL)に置き換える Reinforced Iterative Classification(RIC)を提案します。RIC は、クラスに対する予測分布を反復的に更新する反復エージェントを投入し、予測品質の段階的な改善に対して報酬を与えます。価値関数は、改善のために残されている範囲を推定することで自然な停止基準を提供します。我々は、反復型の定式化が交差エントロピーと同じ最適な予測を復元しつつ、いつでも利用可能な(anytime)分類器をもたらすことを証明します。画像分類ベンチマークにおいて、RIC は教師ありベースラインと同等の精度を達成し、キャリブレーションが改善され、入力ごとに計算を適応的に割り当てることを学習します。