AI Navigate

Devstral small 2 24bは著しく過小評価されている

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Devstral small 2 24bは、テスト対象のモデルの中で唯一、ユーザーの新規の強化学習コードを意味的に解釈・拡張し、16GBのGPU上での推移的推論タスクに対して実質的に適用できた。
  • 著者はGLM 4.7 flash 30b、Qwen3 coder 30b、a3b oss 20b、Qwen3.5 27b、Qwen2.5 coder 14bを試したが、いずれもこのタスクには適しておらず、性能が悪かった。
  • コンテキスト長はモデルサイズに応じて20k〜48kの範囲だった。Devstralの20kでは、CPUの関与があるにもかかわらず実用的な速度で動作していた。
  • 著者は、この非常に新規性の高い文脈にはDevstral small 2が現時点で入手可能な最良の選択肢であると述べ、他のモデルの推奨も求めている。併せてGLM 4.7の4ビット量子化を施しても性能が悪いと報告している。

私は雰囲気重視のコーダーではありませんが、私のコードについて基本的な支援をお願いしたいです。Redditの一般的な合意は、コード補助のために16GBのGPUをローカルで実行するのに最適なモデルについて誤解を招くものであったと感じたため、これを投稿しています。

背景として、私は研究予算のないキャリア初期の学者で、豪華なGPUを持っていません。個人の16gbの4060tiをコード補助に使用しています。今は、3年前に書いた@numba.jitでラップされたnumpy中心のコードを見直しており、それはまだ公表されていない新しいタイプの強化学習を実装しています。私はちょうど数時間をかけて推奨されたすべてのモデルを検討しました。私のコードが単純な推移推論タスクのタイプの強化学習を実装していることを彼らに明確に伝え、モデルにこの仕組みが実際にどう機能するかを説明してもらうよう依頼しました。その後、5要素の推移推論タスクから7要素へコードを拡張するようモデルに追加の指示を出しました。Devstral は部分的に正しい応答を生成できた唯一のモデルでした。完全には正確な応答ではありませんでしたが、少なくとも私が作業可能な何かがありました。

試したほかのモデル: GLM 4.7 flash 30b、Qwen3 coder 30b、a3b oss 20b、Qwen3.5 27b、9b Qwen2.5 coder 14b

コンテキスト長はモデルサイズに依存して20k〜48kの範囲でした。Devstral では 20k の場合、CPUに10%が割り当てられていましたが、それでも使用に耐える速さで動作しました。

結論: 他のモデルは雰囲気重視のコーディングには優れている可能性があります。ただし、モデルの訓練データセットに含まれていたものとは大きく異なる新しい文脈に対して、Devstral small 2 のみが私のコードを知的に解釈できそうだと感じたモデルでした。

他にも試すべきモデルがあれば教えてください。これが誰かの時間を少しでも節約することを願っています。なぜなら、他のモデルは性能でさえも比較にならなかったからです。GLM 4.7 では、4ビットのモデルを一晩動かす必要がありましたが、出力は依然として役に立たないものでした。

投稿者: /u/The_Paradoxy
[リンク] [コメント]