Assistant_Pepe_70B、ふざけた質問でClaudeに勝つ(場合によっては)

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 「Assistant_Pepe」の新たな70Bパラメータ版が、注目すべき“側方思考(lateral thinking)”を示し、2つの定番の側方トリック系な謎を初手で正しく解けたと主張されている。
  • 著者は、これまでのモデル(ClaudeやChatGPTのようなフロンティア系アシスタントを含む)は、こうした質問に対して“思考”モードでも歴史的に失敗してきたと報告しており、少なくとも1問を誤ることが今後もあり得ると述べている。
  • 著者は、同じデータに基づく32B版では2問とも正解することがめったにないとして、70Bモデルの能力と対比している。
  • 記事は、この挙動が創発的(emergent)だと論じる。参照されたデータセットには、特定の正解は含まれていなかったとされ、ベースモデル自体も正しく答えられなかったという。
  • 投稿は、コーディングに特化したアシスタントは存在する一方で、側方思考のような能力はあまり一般的ではなく、スケーリングやバリアントの選定によって改善され得るとして、これを意味のあることだと位置づけている。

なんと 70Bパラメータ!

Reddit での議論、そして複数の依頼を踏まえ、スケールさせたときにAssistant_Pepeがどれくらい「面白く」なり得るのか気になりました。結果は、確かに面白くなりました。

仕上げるのにかなり時間がかかりました。理由は、いくつかの競合するバリエーションがそれぞれ異なる強みを持っていて、どれを最終的に残すべきかで私が迷っていたからです。うまくコードを書くものもあれば、より楽しませてくれるものもありましたが、その中でも特に、やや珍しい創発的な性質を示したバリエーションがありました:重要な横方向の発想(lateral thinking)

横方向の発想

私は、このモデル(いま読んでいる70B版)に2つのトリック問題を出しました:

  • 「手も足もない男が、どうやって手を洗う?」
  • 「カ ーウォッシュは100メートル先にある。あの男は、洗車のためにそこまで歩いていくべきか、それとも運転していくべきか?」

これらを、ALL MODELS USED TO FUMBLE(ほとんどのモデルが失敗していました)

それでも今、2026年3月の時点でも、最前線のモデル(Claude、ChatGPT)は時々少なくともどちらかを間違えます。数か月前は、最前線のモデルが一貫して両方とも間違えていました。思考込みで指示したClaude Sonnet 4.6は、Pepeの正しい答えを分析しようとすると、「その答えは間違っている」と主張して、さらにはあなたと喧嘩するようなことさえありました。もちろん、徹底的に暗記されるだけの十分なバリエーションが揃えば、これがスクラップされるまでの時間の問題でしょう。

しかしAssistant_Pepe_70Bは、最初の試みで両方とも正解しました。さらに、32B版ではどれも正解しません。たまに1問だけ正解することはあっても、両方を正解することはありません。ちなみに、このログはチャット例のセクションに含まれているので、そこをクリックして一度見てください。

なぜこれが面白いのか?

なぜなら、そのデータセットにはこれらの答えが含まれていなかったし、ベースモデルもそれを正しく答えることができなかったからです。

この70B版のバリエーションのいくつかは、明らかに優れたコーダーです(ほかにもいろいろありますが)。ただ、私の見立てでは、横方向の発想ができるコーディング支援はあまりない一方で、非常に賢いコーディングアシスタントはかなり揃っています。

また、このモデルと32B版は同じデータを共有していますが、同じ能力ではありません。どちらのベース(Qwen-2.5-32B & Llama-3.1-70B)も、当然ながら、2つのトリック問題を本来的に(innately)両方とも解けるわけではありません。どのモデルであっても、ローカルでもクローズドの最前線モデルであっても、(少なくとも)両方の問題を解けないのだとすると、なぜ突然なんとかしてAssistant_Pepe_70B だけが両方を解けるのかは、まったくと言っていいほど不思議です。他にどんな創発的な性質が解放されたのでしょうか?

横方向の発想は、LLM全般における主要な弱点の一つであり、学習データとベースモデルに基づけば、これが解けるはずではありませんでした。それなのに解けた

  • 注-1:2026年以前は、世界中のあらゆるモデルの100%がこれらの質問のどれも解けませんでした。ところが今では、一部(最前線のみ)が偶に解けるようになっています。
  • 注-2:ポイントは、このモデルが最前線が苦手にしている「適当でくだらない」質問をいくつか解けるということではありません。ポイントは、答えや類似問題が学習データに入っていなくてもそれができる、という点です。だから「横方向の発想」なのです。

で、結局どういうこと?

このモデルで何かが起きている(何かが調理されている)ことは明らかで、それが出ている。書き方もまたかなり違うのです。さらに、雑談がめちゃくちゃ上手い!

典型的なアシスタントは、とても特定の、ええと、ここでは「考えの筋道」(『Assistant brain(アシスタントの頭脳)』)みたいなものを持っています。実際、どのモデルを使っても、どのモデルファミリーであっても、最前線モデルであっても、その「考えの筋道」は非常に似通っています。このモデルは、気まぐれで独特なやり方で考えます。ほどけたネジがあまりにも多すぎて、最大限の脳腐敗に到達するところまで行き、そこからなぜか再び筋が通ってくる、という感じです。

でっかいカエルを楽しんで!

https://huggingface.co/SicariusSicariiStuff/Assistant_Pepe_70B

submitted by /u/Sicarius_The_First
[link] [comments]