Cards Against LLMs：大規模言語モデルにおけるユーモア整合性のベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「Cards Against LLMs」というベンチマークを導入し、5つの最先端言語モデルがCards Against Humanity風のラウンドを人間の嗜好に対して行うことで、ユーモア整合性を評価する。
ほぼ9,900ラウンドにおいて、モデルは10個の候補の中から「最も面白い」選択肢を選び、ランダム基準よりもすべてのモデルが優れているが、人間の判断との整合性はわずかにとどまる。
重要な発見として、モデル同士の一致度はモデル対人間の一致度よりも大幅に高いことが示されており、「共有された趣味」に見えても、人間の嗜好とはうまく一致していない可能性が示唆される。
本研究は、体系的な位置バイアスや内容に基づく嗜好が、ミスアラインメントを部分的に説明し得ると論じており、ユーモアの判断が本物の嗜好を反映しているのか、それとも推論／アラインメントのアーティファクトによるものなのかという疑問を提起する。

要旨: ユーモアは、人間のコミュニケーションにおける最も文化的に根差し、かつ社会的に重要な側面の一つであるが、Large Language Model（LLM）のアラインメントの側面としては、ほとんど未解明のままである。本研究では、最先端の言語モデル5つが、人間のプレイヤーと同じく Cards Against Humanity（CAH）ゲームを行う。これらのモデルは、9,894ラウンドにわたる10枚の候補カードの一覧から、最も面白い応答を選択する。すべてのモデルはランダム基準値を上回るものの、人間の嗜好とのアラインメントは控えめである。より注目すべきは、モデル同士が人間と一致する頻度よりも、互いに一致する頻度のほうが大幅に高いことである。本研究では、この嗜好が、体系的な位置バイアスやコンテンツ嗜好によって部分的に説明できることを示し、LLMのユーモア判断が、真の嗜好を反映しているのか、それとも推論およびアラインメントの構造的なアーティファクトによるものなのか、という問題を提起する。