病的な動きをマルチモーダル大規模言語モデルは理解できるか?てんかん発作の記述(セミオロジー)に関するパイロット研究

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • このパイロット研究は、臨床の発作動画から20のILAE定義セミオロジー特徴量を用いて、マルチモーダル大規模言語モデル(MLLM)がゼロショットで病的な動きを認識できるかを検証しています。
  • MLLMは、タスク特化の学習なしで、微調整したCNNおよびViTベースラインより18特徴中13特徴で優れており、大きく目立つ姿勢・文脈的手がかりでは強い一方、微細で高周波な動きでは苦手でした。
  • 顔の切り抜き、姿勢推定、音声のノイズ除去といったターゲット化した前処理により、20特徴中10特徴で精度が向上し、信号強調がモデルの弱点を補えることが示唆されました。
  • 専門家による評価では、正しく予測できた症例に対するMLLMの説明の94.3%が、少なくとも60%のfaithfulnessスコアを満たし、てんかん専門医の推論と概ね整合していました。
  • 公開コードを提供し、汎用MLLMを専門的な臨床動画解析へ適応するための、解釈可能で効率的な道筋を示しています。