要旨: ゲームエンジンおよび方策最適化アルゴリズムの効率は、テトリスのような複雑な逐次意思決定タスクにおいて強化学習(RL)エージェントを訓練するために極めて重要である。既存のテトリス実装は、シミュレーション速度の低さ、状態評価の最適でない点、非効率な訓練パラダイムに悩まされており、大規模なRL研究に対する有用性が制限されている。本論文では、ビットボード最適化と改良されたRLアルゴリズムに基づく高性能テトリスAIフレームワークを提案し、これらの制限に対処する。まず、ビットボード表現を用いてテトリスのゲーム盤とテトロミノを再設計し、ビット演算によって中核処理(例:衝突検出、ライン消去、Dellacherie-Thiery特徴抽出)を高速化し、OpenAI Gym-Tetrisと比較して53倍の速度向上を達成する。次に、テトリスのアフターステート(afterstate)性質を活用することで状態価値推定を簡素化する、アフターステート評価型のアクタネットワークを導入し、より少ないパラメータで従来の行動価値ネットワークを上回る性能を示す。第三に、サンプリング効率と更新効率のバランスを取るバッファ最適化型の近位方策最適化(Proximal Policy Optimization: PPO)アルゴリズムを提案し、3分以内に10x10グリッド上で平均スコア3,829を達成する。さらに、OpenAI Gym標準に準拠したPython-Javaインターフェースを開発し、最新のRLフレームワークとのシームレスな統合を可能にする。実験結果は、本フレームワークが、低レベルのビットボード最適化と高レベルのAI戦略を橋渡しすることで、テトリスをRLベンチマークとしてより有用にすることを示している。すなわち、大規模な逐次意思決定研究に向けた、サンプル効率が高く計算負荷の軽い解を提供する。
テトリスAIのビットボード版
arXiv cs.AI / 2026/3/31
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ゲーム盤面と駒をビットボード表現およびビット演算で再設計することで、RL(強化学習)トレーニングを加速する高性能なテトリスAIフレームワークを紹介する。



