要旨: 多モーダル大規模言語モデル(MLLM)のための現在の動画ベンチマークは、イベント認識、時間的順序、長文コンテキストの想起に注目している一方で、専門的な手続き的判断に必要な、より難しい能力を見落としている。それは、進行中の相互作用がどのように手続き状態を更新し、その結果として後続の行動の正しさを決定するかを追跡する能力である。私たちはSiMing-Benchを導入する。これは、臨床スキルの長尺動画全編からこの能力を評価するための最初のベンチマークである。SiMing-Benchは、相互作用によって駆動される状態更新が、ワークフロー全体にわたって手続き的な正しさを保つかどうかを、ルーブリックに基づくプロセスレベルの判断として狙いとする。SiMing-BenchはSiMing-Scoreによって具体化される。SiMing-Scoreは、心肺蘇生、自動体外式除細動器の操作、バ ッグマスク換気を含む実在の臨床スキル試験動画から成る、医師による注釈付きデータセットであり、各動画には標準化された段階的ルーブリックと、2名の専門家によるラベルが組み合わされている。多様なオープンソースおよびクローズドソースのMLLMにわたって、医師の判断との一貫して弱い一致が観察される。さらに、全体として手順レベルの相関が許容できるように見える場合でも、ルーブリックで定義された中間ステップに対する弱い性能は持続する。これは、粗い全体評価が、現在のモデルの手続き的判断能力を大幅に過大評価していることを示唆している。バイナリのステップ判断と、ステップに整合したクリップを用いた追加分析により、ボトルネックは単にきめ細かな採点や時間的ローカライズではなく、時間とともに連続的な相互作用が手続き状態をどのように更新するかをモデル化することにあることが示される。
SiMing-Bench:臨床スキル動画における連続的な相互作用から手順の正しさを評価する
arXiv cs.CL / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMが、長尺の臨床スキル動画において連続的な相互作用が基盤となる手順状態をどのように更新するかを追跡することで、手順の正しさを維持できるかを評価するためのベンチマーク「SiMing-Bench」を提案する。
- SiMing-Bench は、医師が注釈した臨床診察動画(CPR、AED操作、バッグマスク換気)を収録し、標準化された手順ごとのルーブリックと二重の専門家ラベルを備えた「SiMing-Score」を基盤としている。
- オープンソース/クローズドソースを含むさまざまなMLLMに対する結果では、医師の判断との一致が一貫して弱いことが示され、相互作用に駆動される状態依存の手順評価において能力が限定的であることを示唆している。
- 本研究では、手順レベルの全体的な相関が許容できるように見える場合であっても、モデルがしばしばルーブリックで定義された中間ステップに失敗することが明らかになり、グローバルな採点が真の手順判断における弱点を隠してしまう可能性が示される。
- 追加分析から、主要なボトルネックは、きめ細かな採点や時間的な局所化だけではなく、進行中の相互作用に関する手がかりから時間経過に伴う手順状態の更新をモデル化する点にあることが示唆される。

