広告

解釈可能な強化学習のためのマンifold上での主要プロトタイプ解析

arXiv cs.LG / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習(RL)システムがより複雑になり、エンドツーエンドの推論パターンを説明しづらくなるにつれて拡大する「解釈可能性ギャップ」に取り組む。
  • Prototype-Wrapper Networks(PW-Nets)を基にしているが、ドメインの専門家が手作業で定義したプロトタイプを要求するのではなく、データから最も適した参照プロトタイプを自動的に選択することを提案する。
  • 提案手法は、PW-Netsが目指すトレードオフを維持することを目的とする。すなわち、説明可能性を高めつつ、効率性と強力なRL性能を維持する。
  • 標準的なOpenAI Gymのベンチマークに関する予備実験では、本アプローチが既存のPW-Netsと同等の性能を達成し、ブラックボックスモデルとも競争力を維持することが示される。

要旨: 近年、強化学習(RL)は、リアルタイムゲームの解決から、人間の嗜好データを用いた大規模言語モデルの微調整まで、幅広く採用が進んでおり、その結果としてユーザーの期待との整合性が大きく改善されています。しかし、モデルの複雑さが指数関数的に増大するにつれて、これらのシステムの解釈可能性はますます難しくなっています。ローカルおよびグローバルな推論パターンを解明するために、計算機ビジョンや自然言語処理の分野では数多くの説明可能性手法が開発されてきましたが、RLへの適用は依然として限られています。これらの手法を単純に直接拡張した場合、RLの設定において解釈可能性と性能の繊細なバランスを維持することがしばしば困難です。Prototype-Wrapper Networks(PW-Nets)は最近、このギャップを埋める有望な手段として、元のブラックボックスモデルの効率を損なうことなく、RL領域での説明可能性を高めることで、そのような課題に取り組んでいます。しかし、これらの手法は通常、手動で定義された参照プロトタイプを必要としがちで、それには専門領域の知識が要求されることが多いです。本研究では、利用可能なデータから最適なプロトタイプを自動的に選択することで、この依存関係を取り除く手法を提案します。標準的なGym環境に関する予備実験により、本手法が既存のPW-Netsと同等の性能を達成しつつ、元のブラックボックスモデルとも競争力のある水準を維持できることを示します。

広告