私は雰囲気重視のコーダーではありませんが、私のコードについて基本的な支援をお願いしたいです。Redditの一般的な合意は、コード補助のために16GBのGPUをローカルで実行するのに最適なモデルについて誤解を招くものであったと感じたため、これを投稿しています。
背景として、私は研究予算のないキャリア初期の学者で、豪華なGPUを持っていません。個人の16gbの4060tiをコード補助に使用しています。今は、3年前に書いた@numba.jitでラップされたnumpy中心のコードを見直しており、それはまだ公表されていない新しいタイプの強化学習を実装しています。私はちょうど数時間をかけて推奨されたすべてのモデルを検討しました。私のコードが単純な推移推論タスクのタイプの強化学習を実装していることを彼らに明確に伝え、モデルにこの仕組みが実際にどう機能するかを説明してもらうよう依頼しました。その後、5要素の推移推論タスクから7要素へコードを拡張するようモデルに追加の指示を出しました。Devstral は部分的に正しい応答を生成できた唯一のモデルでした。完全には正確な応答ではありませんでしたが、少なくとも私が作業可能な何かがありました。
試したほかのモデル: GLM 4.7 flash 30b、Qwen3 coder 30b、a3b oss 20b、Qwen3.5 27b、9b Qwen2.5 coder 14b
コンテキスト長はモデルサイズに依存して20k〜48kの範囲でした。Devstral では 20k の場合、CPUに10%が割り当てられていましたが、それでも使用に耐える速さで動作しました。
結論: 他のモデルは雰囲気重視のコーディングには優れている可能性があります。ただし、モデルの訓練データセットに含まれていたものとは大きく異なる新しい文脈に対して、Devstral small 2 のみが私のコードを知的に解釈できそうだと感じたモデルでした。
他にも試すべきモデルがあれば教えてください。これが誰かの時間を少しでも節約することを願っています。なぜなら、他のモデルは性能でさえも比較にならなかったからです。GLM 4.7 では、4ビットのモデルを一晩動かす必要がありましたが、出力は依然として役に立たないものでした。
[リンク] [コメント]




