漫画のキャプション職人のように考える学習：マルチモーダルなユーモア理解のための不整合解決サーパービジョン

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、NYCCなどのベンチマークでの予測精度だけでなく、マルチモーダルなユーモア理解には正しい推論プロセスが重要だと主張している。
提案するIRS（Incongruity-Resolution Supervision）は、ユーモア理解を「不整合モデリング（視覚シーンのズレを特定）」「解決モデリング（そのズレを首尾一貫した解釈へ組み直す）」「嗜好整合（候補解釈を人間の判断で評価する）」の3要素に分解する。
キャプション職人の専門知見に基づく構造化された中間の「推論トレース」を用いて、知覚からユーモア解釈に至る道筋を明示し学習可能にする。
7B/32B/72BのモデルをNYCCで評価した結果、IRSは強力なマルチモーダル基線よりもキャプションのマッチングとランキングで優れた性能を示し、最大モデルはランキングで専門家レベルに迫る。
外部ベンチマークへのゼロショット転移でも一般化可能な推論パターンを学習していることが示され、推論中心の課題ではスケールだけでなく推論構造のサーパービジョンが重要だと示唆される。

Abstract

ユーモアは、答えを正しく導くことと同じくらい、推論を正しく行うことが重要になる数少ない認知課題の一つです。近年の研究では、New Yorker Cartoon Caption Contest（NYCC）のようなベンチマークでユーモア理解を評価していますが、主としてそれをブラックボックスの予測として扱っており、ユーモア理解の背後にある構造化された推論プロセスを見落としています。私たちは、ユーモア理解を3つの要素に分解する枠組みであるIRS（Incongruity-Resolution Supervision）を提案します。すなわち、（1）不適合（incongruity）のモデリングでは視覚シーン内の不一致を特定し、（2）解決（resolution）のモデリングではそれらの不一致を一貫した形で再解釈することを構築し、（3）嗜好整合（preference alignment）では人間の判断にもとづいて候補となる解釈を評価します。不適合・解決理論と熟練のキャプション作家の実務に基づき、IRSは、視覚認識からユーモラスな解釈へ至る道筋を明示し学習可能にする、構造化されたトレースを通じて中間の推論プロセスを監督します。NYCCにおける7B、32B、72Bのモデルで、IRSはキャプションのマッチングおよびランキングのタスクにおいて、強力なオープン/クローズド両方のマルチモーダル基線を上回ります。最大モデルでは、ランキングに関して専門家レベルに近づきます。外部ベンチマークへのゼロショット転移でも、IRSが一般化可能な推論パターンを学習していることが示されます。これらの結果は、大規模さそれ自体よりも、推論の構造を監督することが、推論中心の課題における鍵であることを示唆しています。