HumorRank：大規模言語モデルのユーモア生成を評価するトーナメント型リーダーボード

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LLMのユーモア生成の評価は、従来手法が互いに比較できない個別の指標を生み出してしまうため、モデルの進歩を一貫して追跡したりランキング付けしたりするのが難しいという課題がある。
本論文では、HumorRankというトーナメント型の評価フレームワークとリーダーボードを提案し、ユーモアに関する対戦（ペア）評価を統一的で整合性のある順位付けへと変換する。
SemEval-2026のMWAHAHAデータセットを用い、9つのモデル（プロプライエタリ、オープンウェイト、専門特化型を含む）に対して大規模な自動ペアワイズ評価を実施している。
HumorRankでは、GTVH（General Theory of Verbal Humor）に基づくペアごとの判断を、Adaptive Swissトーナメントで集約し、Bradley-TerryのMLEで全体のユーモア能力を推定する。
著者らは、ユーモアの質はモデル規模そのものよりも、コメディの仕組みをどれだけ習得しているかに強く左右されることを示し、スケーラブルで解釈可能なベンチマーク手法を提供する。