FREAK: 高精細な幻覚評価ベンチマーク―高度なマルチモーダル大規模言語モデルのために

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FREAK は、既存のベンチマークの限界に対処するため、マルチモーダル LLMs の細粒度幻覚評価を目的とした包括的なマルチモーダルベンチマークとして紹介される。
高品質のフォトリアリスティックな画像に、常識に反する細かな編集を施して、正確な視覚知覚における幻覚を評価する。
FREAK を用いた広範な実験は、最先端モデルにおける詳細な視覚知覚に関して深刻な幻覚問題があることを示している。
このベンチマークには、モデルが詳細情報を知覚する能力を間接的に評価する制御されたサブセットが含まれ、Chain-of-Thought prompting を分析して幻覚のパターンとモデルの推論を明らかにする。

要旨：マルチモーダル大規模言語モデル（MLLMs）は幻覚に悩まされる。既存の幻覚評価ベンチマークは、過度に単純化されたタスクによって指標が飽和してしまうことが多いか、あるいは十分な多様性が欠如しているため、最先端のマルチモーダルモデルにおける幻覚の程度を適切に評価できない。
このギャップに対処するため、我々はFREAKを提案する。FREAKはMLLMsにおける細かな幻覚評価のための総合的なマルチモーダルベンチマークである。}

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

FREAK: 高精細な幻覚評価ベンチマーク―高度なマルチモーダル大規模言語モデルのために

要点

関連記事

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer