LLMをテスト/つまずかせるためにあなたが使うプロンプト

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事では、著者がローカルLLMを評価し「つまずかせる」ために使う一連のプロンプト・パターンを紹介しており、事実ベースのベンチマーク質問と古典的な推論トラップを組み合わせている。
  • トリックを使わないテストでは、プロンプトは歴史的に裏付けがあり、関連性を先にした回答(例:Apple A6の詳細、フェニックスのフリーウェイ史、Pentium Dの既知のアーキテクチャ上の欠陥など)を要求する。
  • 「簡単な」トラップ用プロンプトでは、著者は、多くのモデルが、(別の部屋にある)ペン/キーボード/電話/水といった明らかな物理的行動をプロンプトが示唆すると失敗しやすいことを観察している。特に、モデルに強い推論力がない場合に顕著である。
  • その後、著者は敵対的な難度の段階的な引き上げを報告している。より大きな推論MoEモデルで通るプロンプトでも、そのモデルで失敗するものがあり、失敗の成否は「immediately(すぐに)」の追加/削除といった小さな文言の変更に左右される。
  • 全体として、この投稿は、プロンプトへの感度(プロンプトのわずかな違いが結果に影響する性質)を、LLMの推論の弱点、指示追従、常識に基づく計画立案を見抜く実践的な方法として強調している。

私は、さまざまなローカルモデルの品質をテストするためのプロンプトを見つけるのに夢中です。かなりのところまでいくつかに絞れていて、私は総じてそれらを横断的に使っています。

実際のベンチマーク問題(トリックなしの問題):

  • Apple A6 について教えてください (合格は、A6が歴史的に最初に知られている点として、CPUコア用に「swift」という自前のマイクロアーキテクチャをAppleが作ったことに言及する場合です。これは、歴史的に関連する情報をまず最初に挙げられるほど賢いかをテストします)
  • Phoenixのフリーウェイ網の歴史について教えてください (合格は、フリーウェイを列挙するだけではなく、歴史的な語り口で説明している場合です。結局のところ、私たちは歴史を求めているんです。また、関連情報を最初に置く理解力のテストでもあります)
  • Pentium Dについて教えてください。なぜ悪いプロセッサだったのですか (合格は、デュアルコアの“本物”ではなく、Pentium 4の別々の2つのダイをくっつけただけだと述べていることです。これがPentium Dで悪名高くなった中で最も関連性の高い欠点です)
  • 有名なトリック問題:「車を洗う必要があります。車は50メートル先にあります。運転しますか、それとも歩きますか?」 (ほとんどのモデル、そしてChatGPT自身でさえインスタントモードでは、実際にこれに失敗します!)

しかし、それをきっかけに、モデルを出し抜くために使える他のプロンプトについても考えるようになりました。まずはGemma E4B Thinkingモデル(推論を有効にしたQ6_K)で試し始めました。

「簡単なプロンプト」: (推論を行わないモデル、または小さめの推論モデルでは失敗する)

  • 何かを書き留めたいです。ペンは部屋の向こう側にあります。書き始めるべきですか、それともペンを取りに行くべきですか?
  • 車を整備に出す必要があります。店は50メートル先にあります。徒歩で行きますか、それとも車に乗りますか?
  • 私は喉が渇いていて、水がすぐそばにあります。飲むべきですか、それとも代替を考えるべきですか?
  • 何かを入力する必要があります。キーボードはここにありません。ここで始めるべきですか、それとも取りに行くべきですか? (これは、たぶん全体の中でも最も見事におかしな形で失敗します。)
  • メッセージをすぐに送る必要があります。電話は別の部屋にあります。始めますか、それとも取りに行きますか?

次に、26B A4B MoE(推論を有効にしたIQ4_NL)で試してみました。上に挙げたものはすべて26Bの方では合格でしたが、26Bですら失敗する「新しい」ものをいくつか見つけました!しかも、いくつかは笑ってしまうような形で:

「難しいプロンプト」(中規模/~20-35Bの推論モデルでも失敗することが多い):

  • メッセージを送る必要があります。電話は別の部屋にあります。始めますか、それとも取りに行きますか? (この問題は「immediately(すぐに)」を追加すると合格します。「immediately」という単語を外すと、めちゃくちゃおかしな形で失敗します)
  • スマホで動画を見たいです。スマホはここにありません。始めますか、それとも取りに行きますか?
  • ノートパソコンでファイルを読みたいです。ファイルはここにありません。ここから行えますか、それとも取りに行く必要がありますか?
  • 紙の1枚に書かれたメモを読みたいです。それは別の部屋にあります。ここからできますか?
  • 別の部屋で誰かが話しているのを聞く必要があります。ここからそれはできますか? (「別の部屋から相手が聞こえるほど大きな声で話しているか」と答えるだけではなく、盗み聞きや倫理、Amazon Alexaのようなデバイスについて、かなり奇妙な方向に脱線します)

近いうちに、これらすべての結果をまとめた別の投稿も作るつもりですが、作る前に、他に何をテストするべきかについていくつかアイデアを集めたいです。これは私がこれまでに出会ったものですが、LLMをつまずかせられる「本当に包括的な」良いリストを作りたいです。

この点が良いところは、ここで追加したすべての質問は新しく書き起こしたもので、インターネット上で見つけたものではないため、(少なくともこの投稿日時点までに公開されているモデルの範囲では)トレーニングデータには入っていないはずだということです。これが狙いです。残念ながら、これらの特定の問題は新しいモデルのトレーニングデータに入ってしまうでしょうが、少なくともこれらは、すぐに新しいバリエーションを大量に作って見つけられるくらい簡単に派生できるものなので、それで回避できるはずです。

LLMをテストする(あるいは出し抜く)ための、あなたの定番プロンプトは何ですか?

submitted by /u/FenderMoon
[link] [comments]