要旨: 本論文は、DARPAのPerceptually-enabled Task Guidance(PTG)プログラムの一環として収集された、エゴセントリックな医療行為データセットであるEgoMAGIC(Medical Assistance, Guidance, Instruction, and Correction)を紹介する。 このデータセットは、50の医療タスクから成る3,355本の動画で構成され、各タスクにつき少なくとも50本のラベル付き動画が含まれている。 PTGプログラムの主な目的は、複雑な作業を行う際にユーザを支援するため、拡張現実(AR)ヘッドセットに統合されたバーチャルアシスタントを開発することであった。
本データセットを用いた探索と研究を促進するため、医療トレーニングデータは、8つの医療タスクに焦点を当てたアクション検出チャレンジとともに公開された。 ほとんどの動画は、統合オーディオを備えたヘッドマウント型ステレオカメラで撮影されている。 このデータセットから、1.95百万ラベルを用いて40個のYOLOモデルを訓練し、124の医療オブジェクトを検出できるようにした。これは、医療AIアプリケーションに取り組む開発者にとって堅牢な出発点を提供するものである。
データセットの導入に加えて、本論文は、選定された8つの医療タスクに対するアクション検出のベースライン結果を、3つのモデルにわたって提示しており、最良の手法は平均mAP 0.526を達成した。 本論文は主としてベンチマークとしてアクション検出を扱うが、EgoMAGICデータセットは、アクション認識、物体の識別・検出、エラー検出、その他の難しいコンピュータビジョンタスクにも同様に適している。
データセットはzenodo.org(DOI: 10.5281/zenodo.19239154)から利用できる。
EgoMAGIC:知覚アルゴリズムを訓練するための自分視点(エゴセントリック)医療動画データセット
arXiv cs.AI / 2026/4/27
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、DARPAのPerceptually-enabled Task Guidance(PTG)プログラムの一環として収集された、自分視点の医療アクティビティ動画データセット「EgoMAGIC」を紹介します。
- EgoMAGICは3,355本の動画を含み、50の医療タスクをカバーし、各タスクにつき少なくとも50本のラベル付き動画が用意されています。
- 医療向けトレーニングデータに加えて、8つの医療タスクを対象にしたアクション検出チャレンジも公開されており、研究・検証が始めやすい構成になっています。
- データセットを用いて40のYOLOモデルを学習し、1.95百万ラベルで124種類の医療対象物を検出できることを示し、8タスクのアクション検出のベースラインとして平均mAP 0.526(最良)を報告しています。
- アクション検出以外にも、アクション認識、物体の同定・検出、エラーディテクションなどの難しいコンピュータビジョンタスクに適していると位置づけられています。




