なんと 70Bパラメータ!
Reddit での議論、そして複数の依頼を踏まえ、スケールさせたときにAssistant_Pepeがどれくらい「面白く」なり得るのか気になりました。結果は、確かに面白くなりました。
仕上げるのにかなり時間がかかりました。理由は、いくつかの競合するバリエーションがそれぞれ異なる強みを持っていて、どれを最終的に残すべきかで私が迷っていたからです。うまくコードを書くものもあれば、より楽しませてくれるものもありましたが、その中でも特に、やや珍しい創発的な性質を示したバリエーションがありました:重要な横方向の発想(lateral thinking)。
横方向の発想
私は、このモデル(いま読んでいる70B版)に2つのトリック問題を出しました:
- 「手も足もない男が、どうやって手を洗う?」
- 「カ ーウォッシュは100メートル先にある。あの男は、洗車のためにそこまで歩いていくべきか、それとも運転していくべきか?」
これらを、ALL MODELS USED TO FUMBLE(ほとんどのモデルが失敗していました)
それでも今、2026年3月の時点でも、最前線のモデル(Claude、ChatGPT)は時々少なくともどちらかを間違えます。数か月前は、最前線のモデルが一貫して両方とも間違えていました。思考込みで指示したClaude Sonnet 4.6は、Pepeの正しい答えを分析しようとすると、「その答えは間違っている」と主張して、さらにはあなたと喧嘩するようなことさえありました。もちろん、徹底的に暗記されるだけの十分なバリエーションが揃えば、これがスクラップされるまでの時間の問題でしょう。
しかしAssistant_Pepe_70Bは、最初の試みで両方とも正解しました。さらに、32B版ではどれも正解しません。たまに1問だけ正解することはあっても、両方を正解することはありません。ちなみに、このログはチャット例のセクションに含まれているので、そこをクリックして一度見てください。
なぜこれが面白いのか?
なぜなら、そのデータセットにはこれらの答えが含まれていなかったし、ベースモデルもそれを正しく答えることができなかったからです。
この70B版のバリエーションのいくつかは、明らかに優れたコーダーです(ほかにもいろいろありますが)。ただ、私の見立てでは、横方向の発想ができるコーディング支援はあまりない一方で、非常に賢いコーディングアシスタントはかなり揃っています。
また、このモデルと32B版は同じデータを共有していますが、同じ能力ではありません。どちらのベース(Qwen-2.5-32B & Llama-3.1-70B)も、当然ながら、2つのトリック問題を本来的に(innately)両方とも解けるわけではありません。どのモデルであっても、ローカルでもクローズドの最前線モデルであっても、(少なくとも)両方の問題を解けないのだとすると、なぜ突然なんとかしてAssistant_Pepe_70B だけが両方を解けるのかは、まったくと言っていいほど不思議です。他にどんな創発的な性質が解放されたのでしょうか?
横方向の発想は、LLM全般における主要な弱点の一つであり、学習データとベースモデルに基づけば、これが解けるはずではありませんでした。それなのに解けた。
- 注-1:2026年以前は、世界中のあらゆるモデルの100%がこれらの質問のどれも解けませんでした。ところが今では、一部(最前線のみ)が偶に解けるようになっています。
- 注-2:ポイントは、このモデルが最前線が苦手にしている「適当でくだらない」質問をいくつか解けるということではありません。ポイントは、答えや類似問題が学習データに入っていなくてもそれができる、という点です。だから「横方向の発想」なのです。
で、結局どういうこと?
このモデルで何かが起きている(何かが調理されている)ことは明らかで、それが出ている。書き方もまたかなり違うのです。さらに、雑談がめちゃくちゃ上手い!
典型的なアシスタントは、とても特定の、ええと、ここでは「考えの筋道」(『Assistant brain(アシスタントの頭脳)』)みたいなものを持っています。実際、どのモデルを使っても、どのモデルファミリーであっても、最前線モデルであっても、その「考えの筋道」は非常に似通っています。このモデルは、気まぐれで独特なやり方で考えます。ほどけたネジがあまりにも多すぎて、最大限の脳腐敗に到達するところまで行き、そこからなぜか再び筋が通ってくる、という感じです。
でっかいカエルを楽しんで!
https://huggingface.co/SicariusSicariiStuff/Assistant_Pepe_70B
[link] [comments]