ゼロショットタスクにおけるMLLMsの検証と強化のためのExplicit Logic Channel(ELC)
arXiv cs.AI / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 著者らは、ブラックボックスMLLMと並行して動作するExplicit Logic Channel(ELC)を提案し、ゼロショット視覚-言語整合性タスクにおける検証、選択、強化のための明示的な論理推論を可能にする。
- ELCアーキテクチャは、Large Language Model、Visual Feature Module、確率的推論を組み合わせ、明示的な視覚証拠に基づく事実的、反事実的、関係的推論を実行する。
- 正解データを必要としない、チャネル間検証とモデル選択のための整合性率(CR)を導入。
- ELCを暗黙的MLLMと統合すると、4つのフロンティアファミリーに属する11のオープンソースMLLMに対して、MC-VQAおよびHC-RECのゼロショット性能が向上。
- 体系的評価は、ELCとCRが説明可能性と信頼性を高めると同時に、視覚-言語タスクにおけるMLLMの検証と改善を可能にすることを示している。
要旨:最前線のマルチモーダル大規模言語モデル(MLLM)は、視覚と言語の理解(VLC)タスクにおいて顕著な能力を示す。しかし、これらのモデルは新しいタスクへゼロショットの解決策としてブラックボックス形式でデプロイされることが多い。これらのモデルの挙動を検証し理解することは、新しいタスクへの適用において重要となる。我々は、ブラックボックスモデルチャネルと並行してExplicit Logic Channelを提案し、モデル検証、選択、強化のための明示的な論理推論を行う。潜在的な視覚-言語知識を内包する先駆的MLLMは、Implicit Logic Channelとして見なすことができる。提案されるExplicit Logic Channelは、人間の論理推論を模倣し、LLM、VFM、および確率的推論による事実的、反事実的、関係的推論を、明示的な視覚証拠に基づいて行う。Consistency Rate(CR、整合性率)を、正解データの注釈を必要とせずにチャネル間の検証とモデル選択のために提案する。さらに、チャネル間の統合は、明示的な視覚証拠に基づいて信頼性を高めつつ、MLLMのゼロショットタスクの性能をさらに向上させる。二つの代表的なVLCタスク、MC-VQAとHC-RECに対して、四つのフロンティアファミリーからの11の最近のオープンソースMLLMを用いた、3つの難易度の高いベンチマークでの体系的な実験を実施した。我々の体系的な評価は、提案したELCとCRがMLLMの検証、選択、改善に有効であり、説明可能性と信頼性を高めると同時に、視覚-言語タスクにおけるMLLMの検証と改善を可能にすることを示している。

