要旨:マルチモーダル大規模言語モデル(MLLMs)は幻覚に悩まされる。既存の幻覚評価ベンチマークは、過度に単純化されたタスクによって指標が飽和してしまうことが多いか、あるいは十分な多様性が欠如しているため、最先端のマルチモーダルモデルにおける幻覚の程度を適切に評価できない。
このギャップに対処するため、我々はFREAKを提案する。FREAKはMLLMsにおける細かな幻覚評価のための総合的なマルチモーダルベンチマークである。}
FREAK: 高精細な幻覚評価ベンチマーク―高度なマルチモーダル大規模言語モデルのために
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FREAK は、既存のベンチマークの限界に対処するため、マルチモーダル LLMs の細粒度幻覚評価を目的とした包括的なマルチモーダルベンチマークとして紹介される。
- 高品質のフォトリアリスティックな画像に、常識に反する細かな編集を施して、正確な視覚知覚における幻覚を評価する。
- FREAK を用いた広範な実験は、最先端モデルにおける詳細な視覚知覚に関して深刻な幻覚問題があることを示している。
- このベンチマークには、モデルが詳細情報を知覚する能力を間接的に評価する制御されたサブセットが含まれ、Chain-of-Thought prompting を分析して幻覚のパターンとモデルの推論を明らかにする。