汎化可能な映像ベースてんかん発作検出のための関節間(クロスジョイント)注意の学習

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、映像ベースてんかん発作検出における重要な限界、すなわち背景バイアスや被験者固有の外観に依存してしまうため、新たな被験者に対してモデルが汎化できない点に取り組む。
  • 関節中心の注意(attention)アプローチを提案し、身体の関節を検出したうえで、背景文脈を抑制するために関節中心の映像クリップを抽出し、それらを Video Vision Transformer(ViViT)でトークン化する。
  • 本モデルは関節間の注意を学習し、身体各部の空間—時間的な相互作用を捉えることで、発作の症候学(semiology)に結び付いた協調的な運動パターンを表現することを目指す。
  • 被験者をまたいだ条件での実験では、本手法が未知の被験者に対して、これまでのCNN、グラフ、トランスフォーマーベースの手法よりも優れていることが示され、汎化性の向上が支持される。

概要: 長期の臨床ビデオからのてんかん発作検出の自動化は、手作業による確認時間を大幅に削減し、リアルタイム監視を可能にします。しかし、既存のビデオベース手法は、背景バイアスや被験者固有の見た目の手がかりへの依存により、未見の被験者に対して一般化することがしばしば困難です。本研究では、身体のダイナミクスにのみ焦点を当てる、共同中心(joint-centric)注意モデルを提案し、被験者間の一般化を改善します。各ビデオ区間に対して身体の関節を検出し、関節中心のクリップを抽出することで、背景の文脈を抑制します。これらの関節中心クリップは、Video Vision Transformer(ViViT)を用いてトークン化され、関節間の注意を学習して、身体部位間の空間的・時間的な相互作用をモデル化し、発作の半生理学(semiology)に特徴的な協調運動パターンを捉えます。広範な被験者間実験により、提案手法は未見の被験者に対して、最先端のCNN、グラフ、トランスフォーマーベースの手法を一貫して上回ることが示されました。