HUMORCHAIN:解釈可能なマルチモーダル冗談生成のための、理論に導かれたマルチステージ推論
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚のセマンティックパースと、冗談および心理学に基づく推論を組み合わせた、解釈可能なマルチモーダル冗談生成のための、理論に導かれたマルチステージ推論フレームワーク「HUMORCHAIN」を提案する。
- データ駆動のみのマルチモーダル冗談キャプション生成では、流暢ではあるが文字通りの説明になりがちだと主張し、HUMORCHAINは冗談理論に由来する認知構造を明示的に埋め込むことで、この課題に対処すると述べている。
- HUMORCHAINには、生成結果の制御可能性と解釈可能性の両方を目指して、冗談の質を評価するためのファインチューニング済み識別器も含まれる。
- Meme-Image-No-Text、Oogiri-GO、OxfordTVG-HICに関する実験では、最先端のベースラインに比べて改善が報告されており、人間による冗談の好みがより高いこと、Elo/BTスコアがより良いこと、さらに意味の多様性が増していることが示されている。
- 本研究は、著者らによれば、視覚から冗談文までの構造化された推論チェーンを通じて、冗談理論の認知構造をマルチモーダル冗談生成へ明示的にマッピングする点で、HUMORCHAINが最初のアプローチであるとして位置づけている。
