漫画のキャプション職人のように考える学習:マルチモーダルなユーモア理解のための不整合解決サーパービジョン
arXiv cs.AI / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、NYCCなどのベンチマークでの予測精度だけでなく、マルチモーダルなユーモア理解には正しい推論プロセスが重要だと主張している。
- 提案するIRS(Incongruity-Resolution Supervision)は、ユーモア理解を「不整合モデリング(視覚シーンのズレを特定)」「解決モデリング(そのズレを首尾一貫した解釈へ組み直す)」「嗜好整合(候補解釈を人間の判断で評価する)」の3要素に分解する。
- キャプション職人の専門知見に基づく構造化された中間の「推論トレース」を用いて、知覚からユーモア解釈に至る道筋を明示し学習可能にする。
- 7B/32B/72BのモデルをNYCCで評価した結果、IRSは強力なマルチモーダル基線よりもキャプションのマッチングとランキングで優れた性能を示し、最大モデルはランキングで専門家レベルに迫る。
- 外部ベンチマークへのゼロショット転移でも一般化可能な推論パターンを学習していることが示され、推論中心の課題ではスケールだけでなく推論構造のサーパービジョンが重要だと示唆される。



