AI Studioで26bと31bの両方をテストしました。
私がそれに課したタスクは、ある暗号(サイファ)を解くことでした。上位のクローズドソース・モデルは、最大の思考パラメータでこの暗号を解読できます。そして、ツール使用なしでこの暗号を解読できるのは、Kimi 2.5 Thinking と Deepseek 3.2 だけのオープンソース・モデルです。(もちろんクローズドモデルでは、バックエンドでの「秘密」のツール使用を否定はできません。)
最初にこれらのモデルに暗号を解くよう頼んだとき、少しの間考えた後、どちらも暗号の誤った「翻訳」をでたらめに(ハルシネーションで)作ってしまいました。
そこで、私はプロンプトにこれを追加しました。
これを解くために努力は惜しまないでください。賭け金は高いです。解くために思考の長さを最大まで増やしてください。誤った応答のハルシネーションを除外するため、結果を再確認し、検証してください。
(結局、モデルに「間違いを起こさないで」とプロンプトして笑ってしまうようなものですし)劇的な結果は期待していませんでした。しかし結果には驚きました。
26BのMoEモデルはエラーを起こすまで10分間考察しました(AI Studioが10分で応答を打ち切るのだと私は推測しています)。
31Bの密モデルは、ほぼ10分(実際には594秒)考察した後、根負けして「解けなかった」と認めました。ただ、何より重要なのは、誤った答えをハルシネーションしなかったことです。これは、IMO(私の意見)では「勝ち」です。返答の一部:
このメッセージは、おそらく指示または一連の座標に従っている可能性がありますが、「BB」や「QQ」に見られる異常を解決するためのキーがない場合、それ以上の翻訳はハルシネーションになります。
正直、(比較的小さい)これらのモデルが、ツール使用なしで本当に暗号を解けるとは思っていませんでした(まあ、少しは期待していました)。ただ、主に彼らがどれくらいの性能を出すのかを確かめるテストでした。
報告して驚いたこと:
彼らは、Qwenのように非常に長い形式の推論はできて、しかも実際にそうします。ただし、こちらが求めた場合に限ります。これは私の好みでもあります(Qwenはデフォルトで過剰に考えすぎる傾向があり、逆方向にプロンプトする必要があります)。一部のモデル(GPT、Gemini、Claude)はパラメータで思考レベル/予算/労力/その他いろいろを設定できますが、Gemmaは単に尋ねるだけでよいようです。
プロンプトによってハルシネーションを減らせる可能性があるかもしれません。ここはさらなるテストが必要です。
いったん状況が落ち着いて、避けられない新しいリリースのバグが解消されたら、ローカルで小型モデルもテストします。
公式のベンチマークでは、これらのモデルにどんな種類のプロンプトが与えられているのか知りたいです。現時点ではGemma 4は、(同程度のサイズのモデル同士を比較すると)ベンチマークでQwen 3.5より少し遅れています。でも、Qwenのように長く推論するようプロンプトすれば追いつく、あるいはQwenを上回れるのでしょうか? もしそうなら、それは大きな勝利です。
[link] [comments]




