「ちょっと待って」…現在の推論SOTAとしてのオープンソース

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • RedditのユーザーがGLM 5.1をテストし、高品質な結果を出せると主張する一方で、「思考をオーバークランクしている」可能性があり、単純なコーディング課題では他のモデルよりもはるかに多くのトークンと時間を費やしているかもしれないと述べています。
  • ユーザーは、GLM 5.1の遅く長い生成プロセス(例:約30分で10万トークン超)を、ClaudeやChatGPT/Codexのように同種のプロンプトに対してはより素早く回答を返すことが多いモデルと対比しています。
  • GLM 5.1は最終的に動作するコードには到達するものの、エラー(例:保護されたメンバへの直接アクセス)により追加のユーザー修正が必要で、想定よりも反復的な入力が多かったと報告しています。
  • 議論では費用対効果への懸念が提起されます。たとえ提供側が価格に対してより多いトークン数を用意していても、「思考」による高いトークン使用量が実際にはその利点を相殺してしまうかもしれない、という点です。
  • 全体として投稿は、GLM 5.1を推論面で強力である可能性がある一方で、日常的な開発用途において、その「思考」挙動が本当に価格面・ワークフロー面で効率的なのかどうかは議論が残る、と位置づけています。

GLM 5.1を試してみてるんだけど、これって私だけ?それとも、考え込んでオーバークランクして、ほぼ常軌を逸した高さまで思考を引き上げることで、実際にちゃんと動いてるだけなの?

この20分の間ずっと、これから何をするつもりかについて、いわゆる中編小説みたいなのを書いてる。で、ええと、ちょっと待って…いや違う…って感じで。結局、いろんな色のオーナードローのCButtonを出力するように頼んだだけなんだけど。

まあ間違ってはいないというか、最後にはそこまで到達してるようなんだけど——私は今ちょうど、自分の「ちょっと待って」な思考モーメントを感じてる:

これって、彼らが「賢く」見えるようにこう作ったの?

Claude(20ドルのやつは今や完全にテスト用のただの詐欺みたいで、トークンは15分で使い切って、その後は何時間も待つ羽目になる)とか、ChatGPT(今は最近はCCよりcodexの方が好みで、正直その方が賢く感じる)みたいな他のモデルは、こんな単純なことだと、ほぼすぐに答えを出してくる。

編集、30分で > 100kトークン、そして今やっとCThemedButtonCtrlを書き始める

編集2:コードにはエラーがあった(ひどいものではない、基本的なミスで、例えば保護メンバーに直接アクセスするとか、そういう類い。ただしエラーはエラー)

編集3:つまり、彼らが提示している価格で「"x"倍のトークンが得られる」と言っても、実際にはこのやり方だと簡単に「"x"倍のトークン」を使ってしまう、ということでもあります。今、GLM 5.1で簡単なことに150k使ってる。私はccやcodexを持ち上げようとしてるわけじゃない、気にしてないんだけど、視点が必要です。150k/30分 vs 15k-20kトークンで2分、これは差であって、もしかしたら「価格が賢い」とは言えないかもしれない。もちろん最終的には(うちで)GLM 5.1を「"できる"」わけです(まあ私は無理だけど)。でもGPTやClaudeは動かせない…まあ、そういうことだけど…

編集4:コードはまあまあ大丈夫なんだけど、修正するのに私の入力がもっと必要だった。今は歯と、贈られた馬のことを考えてる…

編集5:LOL:「いや、ちょっと待って、これを過剰にこねくり回してるだけだと気づいた…」

submitted by /u/FPham
[link] [comments]