小型モデルが怖いくらいに高性能になってきている。

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Redditのユーザーが、Gemini 3 Pro Deepthinkが「勝ち目のないパラドックス」というセキュリティ問題に対して、非常に構造化された解答を提示する実験を述べており、推論に約15分かかったという。
  • ユーザーは、ツールを有効にした小型のオープンウェイトモデルGemma 4(31B)が、物理的制約の違反や偽の方程式を特定し、Geminiの誤った論理を批判したと報告している。
  • Gemmaの主張をDeepthinkに再投入した後、ユーザーは、Deepthinkが撤回/「折りたたみ」を行い、内部検証が失敗しており論理が破綻していたことを認めたと主張する。
  • この投稿は、小型モデルでも効果的なエージェント的な相互レビューや検証ができ、場合によってはより大型の最先端モデルを上回ったり、修正したりできると論じている。
  • 全体として、この逸話は「モデルサイズだけでは正しさは保証されない」という早期の傾向を示唆しており、強い推論力とツールを備えた小型モデルが、対立的な評価(アドバーサリアルな評価)で驚くほど有能になり得ることを示している。
Smaller models are getting scary good.

まだこれを処理中です、笑。

Gemini 3 Pro Deepthinkに、複雑なセキュリティパズルの解決を試させました(実は勝ちようのないパラドックスでした)。約15分ほどの推論の後、信じられないほどプロっぽく見える、非常に構造化された回答を吐き出してきました。面白半分で、その解答をGemma 4 (31B)に渡しました(ツールを有効にして)。

Gemmaはそれを完全に引き裂きました。Geminiが私に答えをねじ込むためにこっそり紛れ込ませようとした、ハードな物理的制約違反と、偽の数学方程式を見抜いたのです。致命的な論理の欠陥を明確に指摘し、Geminiに対して「出力のプロっぽさに目がくらんでいる」と言いました。残酷。

いちばんヤバいのは? 31Bの引数をDeepthinkにそのまま返したら……即座に折れて、内部検証に失敗しており論理が破綻していることを認めました。

皆さんが全編のやり取りを読めるように、HTMLのログを添付しました。31Bのオープンウェイトモデルがエージェント的な査読を行い、最前線のMoEモデルを脅して屈服させられるなんて、私には正気の沙汰に思えません。ファイルを見てください。

全文の会話

今日学んだこと:大きいモデルは賢いとは限らない……少なくともいつもではない。

submitted by /u/Numerous-Campaign844
[リンク] [コメント]