データ不足下におけるTransformerの学習を支えるワーキングメモリ制約スキャフォールド学習

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、人間のワーキングメモリに似た制約をTransformerの注意(アテンション)に組み込み、固定幅ウィンドウ型および時間減衰型の注意メカニズムを実装する。
  • 改変したGPT-2モデルを、10M語および100M語の開発的に妥当なデータセットでスクラッチから学習させ、データ不足時の頑健性を評価する。
  • 文法判断タスク(BLiMP)と人間の読解時間データとの比較で、制約付き注意モデル—特に固定幅注意—が文法精度を大きく改善することが示される。
  • 制約付きモデルは、人間の処理指標との整合性もより強い傾向があり、ワーキングメモリに着想した制限が有益な帰納バイアスになり得ることを示唆する。
  • これらの結果は、認知的制約をアーキテクチャに組み込むことで、学習データが限られる状況でも言語表現をより良く獲得できる可能性を示している。

要旨: 本研究では、Transformerアーキテクチャへの人間らしいワーキングメモリ制約の統合を調査し、いくつかの認知に着想を得た注意(attention)変種を実装します。具体的には、固定幅ウィンドウに基づくものや、時間的減衰に基づく注意メカニズムなどを含みます。修正したGPT-2モデルは、発達的に妥当なデータセット(10M語および100M語)で、スクラッチから学習されます。性能は、文法判断タスク(BLiMP)および、人間の読解時間データとの整合性によって評価します。結果は、これらの認知に着想を得た制約、特に固定幅注意が、学習データが乏しい場合において、文法精度を大幅に改善し得ることを示しています。また、制約付きモデルは、人間の処理指標との整合性がより強い傾向も見られます。これらの知見は、こうした制約が有益な帰納バイアスとして機能し、モデルをより頑健な言語表現へと導く可能性があること、特にデータが限られた状況においてその効果が期待できることを示唆しています。