報酬によるスカウティング：VLM-TO-IRLを用いたeスポーツの選手選抜

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、eスポーツの選手スカウティングを、集計的な成績指標だけでは捉えにくい微妙な戦術的意思決定パターンを反映するために、逆強化学習（IRL）問題として再定義することを提案している。
ログ化された対戦デモからプロ選手ごとの報酬関数を学習し、特定のスター選手との「スタイルの一致度」に基づいて候補者をランキングする選手選抜フレームワークを提示している。
アーキテクチャはマルチモーダルな2枝入力を用い、1つは高解像度のゲーム内テレメトリから得る構造化された状態-行動の軌跡、もう1つは放送映像からVLM（Vision-Language Model）が生成した時間整合のある戦術的疑似コメントをエンコードする。
Generative Adversarial Imitation Learning（GAIL）の目的により、識別器がエリート選手の特徴的なメカニクスと戦術的シグネチャを学習して候補を評価する。
この手法は、非常に大規模な候補プールに対しても、データ駆動でロスターを構築し、狙いを定めた才能発掘を行える「ワークフロー対応型デジタルツイン」を目指している。

Abstract

従来のeスポーツのスカウティング業務では、手作業による映像レビューや、集約されたパフォーマンス指標への大きな依存が一般的である。しかしこれらは、多様で繊細な意思決定のパターンを捉えられず、有望選手が特定の戦術的アーキタイプに適合するかどうかを判断するために必要な情報を十分に反映できないことが多い。これに対処するため、本研究では、eスポーツにおけるスタイルに基づく選手評価を、逆強化学習（Inverse Reinforcement Learning: IRL）問題として再定式化する。本論文では、ログ化されたゲームプレイのデモンストレーションからプロ選手特有の報酬関数を学習し、ターゲットとなるスター選手のスタイルとの整合性にもとづいて候補者を順位付けできる、新しい選手選抜のための枠組みを提案する。提案するアーキテクチャは、マルチモーダルで二分岐の入力を用いる。1つ目の分岐は、高解像度のゲーム内テレメトリから導出される、構造化された状態-行動の軌跡を符号化する。2つ目の分岐は、放送映像からVision-Language Models（VLMs）によって生成され、時間的に整合した戦術的な擬似コメンタリーを符号化する。これらの表現は結合され、生成的敵対的模倣学習（Generative Adversarial Imitation Learning: GAIL）の目的関数によって評価される。そこでは識別器が、エリートプロ選手に固有の機械的ならびに戦術的シグネチャを捉えることを学習する。汎用的なスキル推定から「報酬による」スカウティングへと移行することで、本枠組みは、ワークフローを意識したスケーラブルなデジタルツインのシステムを提供し、大規模な候補者プールにわたって、データ駆動型のロスター構築と、狙いを定めた才能発掘を可能にする。