要旨: Transformerベースの言語モデルは推論のために広く展開されていますが、推論時の確率的性質における挙動は十分に検討されていません。トレーニング時にはドロップアウトが一般的ですが、モンテカルロサンプリングを介した推論時の効果はアーキテクチャ間で体系的に評価されておらず、不確実性を意識した応用におけるモデルの信頼性の理解を制限しています。
本研究は、サンプルごとに100回の確率的フォワード伝搬を用いるMC Dropoutを用いて、19のトランスフォーマーモデルにおけるドロップアウト誘発の変動を分析します。ドロップアウトの頑健性は、確率的推論下で高い精度と安定した予測を維持することとして定義され、各実行の精度の標準偏差で測定されます。認知的分解フレームワークは、性能を記憶と推論の成分に分離します。実験は5つのドロップアウト設定にまたがり、1,000サンプルで95件の独自評価を生み出します。
結果は、アーキテクチャ間に大きなばらつきがあることを示します。小型モデルは予測の安定性が完璧である一方、中型モデルは顕著な変動を示します。中型モデルが全体的には最良の性能を発揮し、より大きなモデルは記憶タスクで優れているとします。特に、ベースラインMC Dropoutの下で53%のモデルが深刻な精度低下を被り、タスク特化型のモデルは最大で24ポイント失い、これらのアーキテクチャにおける不確実性の定量化には適さないことを示します。非対称な効果が現れます。高いドロップアウトは記憶の精度を27ポイント低下させる一方、推論はわずか1ポイントの低下にとどまります。記憶タスクはドロップアウトが崩す安定した表現に依存することを示唆します。84%のモデルが記憶バイアスを伴う性能を示します。
これはトランスフォーマーに対する初の包括的なMC Dropoutベンチマークを提供し、ドロップアウトの頑健性がアーキテクチャ依存であり、スケールとは相関しないことを明らかにします。認知プロファイリングフレームワークは、不確実性を意識したアプリケーションにおけるモデル選択の実用的な指針を提供します。
確率的推論を用いたドロップアウトの頑健性とトランスフォーマーモデルの認知プロファイル
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、推論時の頑健性を評価するために、モンテカルロ・ドロップアウトを用いてサンプルごとに100回の確率的前向き伝播を実施し、19のトランスフォーマーモデルにおけるドロップアウト誘発のばらつきを分析する。
- ドロップアウトの頑健性を、高い精度と安定した予測を維持することとして定義し、安定性を各実行の精度の標準偏差と、記憶と推論の成分に分解した認知的分析で定量化する。
- 5つのドロップアウト構成にわたる実験では、1,000サンプルに対して95件のユニークな評価を実施し、モデルサイズだけには単純には結びつかない、頑健性における著しいアーキテクチャのばらつきを明らかにした。
- 結果として、小型モデルは予測が非常に安定しており、中型モデルが全体の精度で最も優れている一方で、大型モデルは記憶タスクに長けることが示された。
- 重要な点として、ベースラインのMC Dropout下で53%のモデルが深刻な精度低下に苦しみ、タスク特異的なモデルは最大で24ポイントの精度を失う。
- 記憶タスクはドロップアウトの影響を不均等に受け、記憶精度は27ポイント低下する一方、推論は1ポイントしか低下しない。さらに、モデルの84%が記憶寄りのパフォーマンスを示し、これがトランスフォーマーにおける初の包括的なMC Dropoutベンチマークとなり、不確実性を考慮したアプリケーションに指針を提供する。