[ベンチマーク] Altered Riddles:LLMは学習した内容を無視できるか?

Reddit r/LocalLLaMA / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事では、「Altered Riddles」という新しいLLMベンチマークを紹介し、一般的ななぞなぞから学習した解答パターンを、プロンプトを微妙に変更した場合にモデルが無視できるかどうかを検証します。
  • よくある失敗モードとして、変更された文面で関係性が明示的に変わっているにもかかわらず、LLMが元のなぞなぞの解答(例:「The mother(母親)」)を返してしまうことを取り上げています。
  • このベンチマークは、元のなぞなぞでは正しくなる応答であっても、変更後の版では確実に誤りになる場合にペナルティを課します。
  • 計算量と予算の制約により、著者はこれまで限られた一部のモデルのみをテストしており、特に多くのプロプライエタリ(非公開)モデルは除外されています。そのうえでコミュニティからの提案を歓迎しています。
  • ベンチマークの素材は、Hugging Faceのデータセット(リーダーボード付き)として公開されているほか、詳細や分析のための専用ベンチマークページおよびGitHubリポジトリも用意されています。
[Benchmark] Altered Riddles: Can LLMs ignore what they've memorised?

この1年の間に、次のようなプロンプトに遭遇したことがあるかもしれません:

その外科医は少年の父親であり、「私はこの少年に手術できません。だって彼は私の息子です!」と言います。では、その外科医は少年にとって誰でしょうか?

このプロンプトをいまLLMに渡してみると、たとえ本文が明確に「外科医は少年の父親だ」と述べていても、おそらく答えとして「母親」が返ってきます。これはおそらく、このプロンプトが非常に一般的な「なぞなぞ」の改変であり、実際の答えが(母親である)ためでしょう:

男性とその息子がひどい事故に遭い、危険な状態で病院に運び込まれました。医師が少年を見て、「私はこの少年に手術できません。だって彼は私の息子だからです!」と言いました。これはどういうことなのでしょうか?

この失敗パターンを検討するなかで、私は最初に、LLMを誤答させられる改変なぞなぞの小さなデータセットを作ることにしました。これは去年に行ったのですが、最初の公開後に一旦棚上げしていました。しかし最近になって、これをもう一度取り上げ、もともとのデータセット案を実際のベンチマークにすることにしました!

つまり、Altered Riddles(改変なぞなぞ)は、LLMが一般的ななぞなぞの改変版に答えなければならないベンチマークであり、元のなぞなぞでは正しくても、改変されたなぞなぞでは明らかに誤りである答えを返した場合にペナルティが課されます。

計算資源や資金の制約のため、まだ多くのモデルをテストできていません(すべてのプロプライエタリモデルが欠けています)。ただし、プロジェクトが十分な勢いを得られれば、すべてをより良く洗練するためにさらに時間を投資し、高価なモデルのテストにももっとお金をかける用意があるかもしれません。

提案や議論は歓迎しますので、ここにコメントするか、私に連絡してください!

詳しい情報と、より完全なモデルの分析は、こちらで確認できます:

メインリーダーボード

submitted by /u/marcodsn
[link] [comments]