病的な動きをマルチモーダル大規模言語モデルは理解できるか？てんかん発作の記述（セミオロジー）に関するパイロット研究

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

このパイロット研究は、臨床の発作動画から20のILAE定義セミオロジー特徴量を用いて、マルチモーダル大規模言語モデル（MLLM）がゼロショットで病的な動きを認識できるかを検証しています。
MLLMは、タスク特化の学習なしで、微調整したCNNおよびViTベースラインより18特徴中13特徴で優れており、大きく目立つ姿勢・文脈的手がかりでは強い一方、微細で高周波な動きでは苦手でした。
顔の切り抜き、姿勢推定、音声のノイズ除去といったターゲット化した前処理により、20特徴中10特徴で精度が向上し、信号強調がモデルの弱点を補えることが示唆されました。
専門家による評価では、正しく予測できた症例に対するMLLMの説明の94.3%が、少なくとも60%のfaithfulnessスコアを満たし、てんかん専門医の推論と概ね整合していました。
公開コードを提供し、汎用MLLMを専門的な臨床動画解析へ適応するための、解釈可能で効率的な道筋を示しています。

日経XTECH

Dev.to

Dev.to

MarkTechPost

MarkTechPost