HUMORCHAIN:解釈可能なマルチモーダル冗談生成のための、理論に導かれたマルチステージ推論

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚のセマンティックパースと、冗談および心理学に基づく推論を組み合わせた、解釈可能なマルチモーダル冗談生成のための、理論に導かれたマルチステージ推論フレームワーク「HUMORCHAIN」を提案する。
  • データ駆動のみのマルチモーダル冗談キャプション生成では、流暢ではあるが文字通りの説明になりがちだと主張し、HUMORCHAINは冗談理論に由来する認知構造を明示的に埋め込むことで、この課題に対処すると述べている。
  • HUMORCHAINには、生成結果の制御可能性と解釈可能性の両方を目指して、冗談の質を評価するためのファインチューニング済み識別器も含まれる。
  • Meme-Image-No-Text、Oogiri-GO、OxfordTVG-HICに関する実験では、最先端のベースラインに比べて改善が報告されており、人間による冗談の好みがより高いこと、Elo/BTスコアがより良いこと、さらに意味の多様性が増していることが示されている。
  • 本研究は、著者らによれば、視覚から冗談文までの構造化された推論チェーンを通じて、冗談理論の認知構造をマルチモーダル冗談生成へ明示的にマッピングする点で、HUMORCHAINが最初のアプローチであるとして位置づけている。

Abstract

ユーモアは、創造的な人間の活動であると同時に、社会的な結びつきを生み出す仕組みでもあり、AI生成にとって長年にわたり大きな課題となってきました。ユーモアの生成には複雑な認知的推論と社会的理解が必要ですが、ユーモアに関する理論では、学習可能なパターンや構造に従うことが示唆されており、理論的には生成モデルがそれらを暗黙に獲得できる可能性があります。近年、マルチモーダル・ユーモアはオンラインコミュニケーションで広く普及しており、特にGen Zの間で顕著であり、視覚理解とユーモラスな言語生成を統合できるAIシステムが必要とされています。しかし、既存のデータ駆動型アプローチではユーモアの明示的なモデリングや理論的根拠が欠けていることが多く、その結果、基盤となる認知メカニズムを捉えられず、生成される画像キャプションは流暢である一方で真のユーモアや認知的な深みを欠くことになります。この制約に対処するために、本研究ではHUMORCHAIN(HUmor-guided Multi-step Orchestrated Reasoning Chain for Image Captioning)を提案します。これは、理論に基づいたマルチステージ推論フレームワークです。視覚的なセマンティック解析、ユーモアおよび心理学に基づく推論、ならびにユーモア評価のためのファインチューニング済み識別器を統合し、解釈可能で制御可能な認知推論チェーンを形成します。筆者らの知る限り、本研究はユーモア理論に由来する認知構造をマルチモーダル・ユーモア生成へ明示的に埋め込む最初の試みであり、視覚理解からユーモア生成へ至る構造化された推論プロセスを可能にします。Meme-Image-No-Text、Oogiri-GO、OxfordTVG-HICの各データセットに関する実験では、HUMORCHAINが、人間のユーモア嗜好、Elo/BTスコア、セマンティック多様性において、最先端のベースラインを上回ることが示されました。これは、理論に基づく構造化推論によって、大規模言語モデルが人間の知覚に整合したユーモアを生成できることを裏付けています。