信頼できる医療VQAのためのフロンティア視覚言語モデル監査：グラウンディング失敗、フォーマット崩壊、ドメイン適応

arXiv cs.AI / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、5つの最新のフロンティア／グラウンディング対応視覚言語モデルを医療VQAで監査し、解剖学的・病理学的ターゲットの局在化が全モデルで一様に弱いこと（最良でも平均IoUが0.23にとどまる）に加え、臨床的に危険な左右（laterality）の混同が見られると報告している。
同一モデルで「先に局在化し、その後に回答する」自己グラウンディングの二段階パイプラインでは、あらゆるモデルでVQA精度が低下し、その要因として不正確な局在化と、二段階プロンプトに起因する深刻なフォーマット順守／パース失敗（GeminiとGPT-5でVQA-RAD上のパース失敗が70%〜99%）が挙げられている。
予測バウンディングボックスをグラウンドトゥルースの注釈に置き換えると、VQA精度は回復・改善し、失敗の本質が質問分解の手法ではなく知覚（局在化）モジュールにあることを示している。
追補としてドメイン適応を目的に、Med-VQAの結合学習データでQwen 2.5 VLを教師あり微調整したところ、比較可能な手法の中で最良のSLAKEオープンエンド想起（85.5%）が得られたが、これが信頼性ボトルネック（知覚・信頼性の課題）を完全に解消できるかは今後の検討課題として残されている。
総じて、臨床現場でVLMを信頼できる形で運用するうえで、グラウンディング品質（境界ボックスの局在化信頼性）が主要なボトルネックだと結論づけている。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/1Dailyインサイトを見る →

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

信頼できる医療VQAのためのフロンティア視覚言語モデル監査：グラウンディング失敗、フォーマット崩壊、ドメイン適応

要点

💡 この記事が使われたインサイト

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

なぜエンタープライズのAIパイロットは失敗するのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

なぜエンタープライズのAIパイロットは失敗するのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣