要旨: 科学的な図を用いた多肢選択式質問応答(MCQA)では、モデルに対して、グラフや複数パネルの図から、顕微鏡画像や生物医学画像に至るまで、多様な視覚的証拠に基づく推論が求められます。しかし、この設定には特徴的なバイアスがあります。すなわち、選択肢そのものが事前知識(prior)として機能し、図が別の答えを支持している場合でも、マルチモーダルモデルを科学的にもっともらしい選択肢へと誘導してしまうのです。本研究では、この失敗モードを単純な問いを通して調査します。すなわち、テキスト単独からモデルが好むものをデコードの段階で明示的に割り引き、図に基づく(figure-grounded)証拠を優先するならどうなるでしょうか。そこで本研究では、SCICON という訓練不要のデコード手法を提案します。これは、各候補をスコア付けする際に、テキスト単独のオプション・スコアから、それに対応する画像条件付け版のスコアを差し引くことで行います。従来のコントラスト(対比)に基づくデコード手法が、元の入力と歪んだ画像、あるいは摂動を加えた指示文を対比することで幻覚を抑制していたのに対し、SCICON は候補文中に符号化された、選択肢によって生じる事前知識(choice-induced prior)を直接狙います。3つの科学的図のQAベンチマークと3つのモデル・バックボーンにおいて、SCICON は標準的なデコード基準に比べて一貫して精度を向上させます。これらの結果は、選択肢によって生じる事前知識に対してデコードすることが、科学的MCQAにおける図に基づく推論を改善するための効果的かつ単純な方法であることを示しています。
選択肢が事前分布になるとき:科学的図表マルチプルチョイスQAに対する対比的デコーディング
arXiv cs.AI / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 科学的図表のマルチプルチョイスQAは、選択肢のテキストが事前分布(prior)として機能し、図がそうでないことを示している場合でも、マルチモーダルモデルを科学的にもっともらしい選択肢へとバイアスしてしまうことで失敗し得る。
- 本論文は、候補ごとのスコアを「そのテキストのみのスコア」から「画像条件付きスコア」を引いて計算する、学習不要の対比的デコーディング手法 SCICON を導入することで、選択肢によって生じる事前分布を相殺(割り引き)する。
- SCICON は、入力同士の対比や指示の摂動ではなく、候補テキストに埋め込まれた事前分布に焦点を当てる点で、先行する対比的デコーディング手法と異なる。
- 3つの科学的図表QAベンチマークと3つのモデルバックボーンにまたがる実験により、標準的なデコーディングのベースラインに比べて一貫した精度向上が示される。
- これらの結果は、選択肢に起因する事前分布に対して明示的にデコードすることが、科学的MCQAにおける図表に基づく推論を改善するための単純で有効な方法であることを示唆している。



