汎化可能な映像ベースてんかん発作検出のための関節間（クロスジョイント）注意の学習

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、映像ベースてんかん発作検出における重要な限界、すなわち背景バイアスや被験者固有の外観に依存してしまうため、新たな被験者に対してモデルが汎化できない点に取り組む。
関節中心の注意（attention）アプローチを提案し、身体の関節を検出したうえで、背景文脈を抑制するために関節中心の映像クリップを抽出し、それらを Video Vision Transformer（ViViT）でトークン化する。
本モデルは関節間の注意を学習し、身体各部の空間—時間的な相互作用を捉えることで、発作の症候学（semiology）に結び付いた協調的な運動パターンを表現することを目指す。
被験者をまたいだ条件での実験では、本手法が未知の被験者に対して、これまでのCNN、グラフ、トランスフォーマーベースの手法よりも優れていることが示され、汎化性の向上が支持される。

概要: 長期の臨床ビデオからのてんかん発作検出の自動化は、手作業による確認時間を大幅に削減し、リアルタイム監視を可能にします。しかし、既存のビデオベース手法は、背景バイアスや被験者固有の見た目の手がかりへの依存により、未見の被験者に対して一般化することがしばしば困難です。本研究では、身体のダイナミクスにのみ焦点を当てる、共同中心（joint-centric）注意モデルを提案し、被験者間の一般化を改善します。各ビデオ区間に対して身体の関節を検出し、関節中心のクリップを抽出することで、背景の文脈を抑制します。これらの関節中心クリップは、Video Vision Transformer（ViViT）を用いてトークン化され、関節間の注意を学習して、身体部位間の空間的・時間的な相互作用をモデル化し、発作の半生理学（semiology）に特徴的な協調運動パターンを捉えます。広範な被験者間実験により、提案手法は未見の被験者に対して、最先端のCNN、グラフ、トランスフォーマーベースの手法を一貫して上回ることが示されました。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

汎化可能な映像ベースてんかん発作検出のための関節間（クロスジョイント）注意の学習

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer