ベンチマークが示すわけではありませんが、実世界のタスクにおいては 3.5 に対する大幅な改善です。このモデルは私にとって GLM-5.1 や Kimi-k2.5 よりも調子が良く、最大の改善ポイントは信頼性(reliability)です。
エンドツーエンドでちゃんと仕事を片付け、途中で台無しにしたりして何時間も無駄にしない点で、claude と同じくらい信頼できると感じます。Claude Sonnet と比べられるように感じたのは、これが初めての OS モデルです。
私たちはここ数か月、claude sonnet や opus などの OS モデルを右に左に比較してきました。ベンチマークでは近いことを示していますが、実世界では崩れてしまいます。opus に近いと主張されているモデルでさえ、私の実世界での使用では Sonnet レベルの品質に到達できていません。
これは、Sonnet にとてもよく一致していると自信をもって言える最初のモデルです。
そして、あなたたちの中に「誰もローカルで動かせないだろう」と言う人がいるかもしれませんが、はい、私たちのほとんどはノートPCで動かせないかもしれません。ですが
- クローズドなモデルでは絶対にできないことをやるために、クラウドで GPU をレンタルしている人たちがいます
- そのモデルを格安価格でホスティングしてくれる推論プロバイダが他にも 50 社あります
- このモードの検閲を取り除き、自由に使えるようにし、そして自分の望む形に改変できること
- そして他にもたくさん
ちゃんとした、実用に耐える大型のオープンソースモデルは必要です。
[link] [comments]




