広告

Gemma 4は思考トークンの効率が良いが、指示すれば10分以上も喜んで推論する

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Gemma 4(26B MoEおよび31B dense)をGoogle AI Studioの暗号解読タスクでテストしたところ、最初の短い「思考」によって、誤った翻訳を幻覚として出すようになった。これは、より上位のモデルが高い思考設定を用いない限り回避できなかった挙動である。
  • 「手段を惜しまないで(spare no effort)」と促して思考を最大まで引き上げ、さらに二重チェックして幻覚を排除するようにすると、両方のGemma 4モデルは非常に長い推論(最大で約10分)へと切り替わり、その後、幻覚を起こさずに失敗するか、妥当な解がないと結論づけるまで至った。
  • 26B MoEモデルは約10分推論したがエラーで中断した(おそらくプラットフォーム側の応答カットオフによる)。一方で31B denseモデルはほぼ10分に達したが、幻覚を起こしてまで答えを出すのではなく、最終的に回答を拒否した。
  • 著者は、Gemmaはデフォルトではそうでなくても、明示的に長文推論を要求すれば実行させられると結論づけている。また、プロンプトによって幻覚が減る可能性があるものの、さらなる検証が必要だとしている。
  • この記事では、追加の評価として、小型のGemmaモデルをローカルでテストし、Qwen 3.5と比較して、より長い推論がGemmaのベンチマーク差を埋める、あるいは上回ることにつながるかを確認することが提案されている。

AI Studioで26bと31bの両方をテストしました。

私がそれに課したタスクは、ある暗号(サイファ)を解くことでした。上位のクローズドソース・モデルは、最大の思考パラメータでこの暗号を解読できます。そして、ツール使用なしでこの暗号を解読できるのは、Kimi 2.5 Thinking と Deepseek 3.2 だけのオープンソース・モデルです。(もちろんクローズドモデルでは、バックエンドでの「秘密」のツール使用を否定はできません。)

最初にこれらのモデルに暗号を解くよう頼んだとき、少しの間考えた後、どちらも暗号の誤った「翻訳」をでたらめに(ハルシネーションで)作ってしまいました。

そこで、私はプロンプトにこれを追加しました。

これを解くために努力は惜しまないでください。賭け金は高いです。解くために思考の長さを最大まで増やしてください。誤った応答のハルシネーションを除外するため、結果を再確認し、検証してください。

(結局、モデルに「間違いを起こさないで」とプロンプトして笑ってしまうようなものですし)劇的な結果は期待していませんでした。しかし結果には驚きました。

26BのMoEモデルはエラーを起こすまで10分間考察しました(AI Studioが10分で応答を打ち切るのだと私は推測しています)。

31Bの密モデルは、ほぼ10分(実際には594秒)考察した後、根負けして「解けなかった」と認めました。ただ、何より重要なのは、誤った答えをハルシネーションしなかったことです。これは、IMO(私の意見)では「勝ち」です。返答の一部:

このメッセージは、おそらく指示または一連の座標に従っている可能性がありますが、「BB」や「QQ」に見られる異常を解決するためのキーがない場合、それ以上の翻訳はハルシネーションになります。

正直、(比較的小さい)これらのモデルが、ツール使用なしで本当に暗号を解けるとは思っていませんでした(まあ、少しは期待していました)。ただ、主に彼らがどれくらいの性能を出すのかを確かめるテストでした。

報告して驚いたこと:

  • 彼らは、Qwenのように非常に長い形式の推論はできて、しかも実際にそうします。ただし、こちらが求めた場合に限ります。これは私の好みでもあります(Qwenはデフォルトで過剰に考えすぎる傾向があり、逆方向にプロンプトする必要があります)。一部のモデル(GPT、Gemini、Claude)はパラメータで思考レベル/予算/労力/その他いろいろを設定できますが、Gemmaは単に尋ねるだけでよいようです。

  • プロンプトによってハルシネーションを減らせる可能性があるかもしれません。ここはさらなるテストが必要です。

いったん状況が落ち着いて、避けられない新しいリリースのバグが解消されたら、ローカルで小型モデルもテストします。

公式のベンチマークでは、これらのモデルにどんな種類のプロンプトが与えられているのか知りたいです。現時点ではGemma 4は、(同程度のサイズのモデル同士を比較すると)ベンチマークでQwen 3.5より少し遅れています。でも、Qwenのように長く推論するようプロンプトすれば追いつく、あるいはQwenを上回れるのでしょうか? もしそうなら、それは大きな勝利です。

submitted by /u/AnticitizenPrime
[link] [comments]

広告