ブラックボックスからグラスボックスへ:アンビエントAIサイバー(書記)における、クロスモデルASR不一致をPriotoレビューへ活用する方法に関するドキュメント
arXiv cs.AI / 2026/4/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、異種の複数ASRシステム間の不一致が、参照(正解)なしで不確実性の手掛かりとなり得るかを検証し、医療用アメベントAIサイバー(書記)業務での人手レビュー優先度付けにつなげることを目的としています。
- 50件の公開医療教育音声クリップ(8時間14分)に対し8つのASRシステムで文字起こしを行い、出力をアラインメントしたうえでコンセンサス疑似参照を作成し、トークン単位の一致度を測定しました。
- モデル間の信頼性は低く(ICC[2,1] = 0.131)、システムごとに失敗パターンが異なることが示されました。
- 評価対象トークンの大半はほぼ全員一致(7〜8モデル)だった一方(72.1%)、高リスク帯(0〜3モデル)に入るのは2.5%であり、その割合はアクセント群によって0.7%〜11.4%と大きく変動しました。
- 不一致が多い領域では内容(content)の不一致が増え、高リスク領域では内容割合が53.9%から73.9%へ上昇したことから、参照なしでも信頼性の低い文字起こし範囲を局所化できる可能性が示唆されました(ただし、フラグ付け領域の臨床精度は今後の検証が必要です)。



