この推測は、あながち的外れではないのでは?

Reddit r/LocalLLaMA / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 投稿では、SOTAのローンチ後に出ている最近の「モデル劣化」への不満は、本物のモデルの後退ではなく、コスト最適化や計算資源の制約に対応していることに起因している可能性があると主張している。
  • コミュニティには、時間の経過に伴う性能低下を検知するための、信頼できて一定のベンチマークが欠けており、それを提供者が簡単に無効化できない形になっていないと示唆している。
  • 提案は、ベンチマーク用アカウントが、(とりわけ量子化やルーティングを行うオープンウェイトの提供者にとって重要な)完全な未変更のモデルバリアントへのアクセスを確保し、ベンチマークを“弄りにくく”することだ。
  • 過去の性能を追跡する既存の取り組みに言及しており、それらの価値を認めつつも、提供者が介入すれば無意味になる可能性があることをほのめかしている。
この見解は、あまりにも的外れではないのかもしれませんか?

出典:

- https://www.reddit.com/r/LocalLLaMA/comments/1sgd7fp/its_insane_how_lobotomized_opus_46_is_right_now/

- https://www.threads.com/@hasanahmad/post/DW2B7kRj1PB

- さらに多くの人が、リリースから数週間後にsotaモデルが劣化することに不満を述べています。多くの人が次の点を推測しています: コスト削減、計算資源の逼迫、など...

- これについては、実際には一定のベンチマークが必要ですが、もしベンチマークが目立つものになった場合(量子化やルーティングのようなことがあるため、オープンウェイトモデルのためのインフラを提供している事業者であっても)、そのベンチマークを実施するアカウントがモデルの完全版にアクセスできるようにすることは可能だと思います。

私が知っている、性能を追跡するベンチは2つだけです(ただし、プロバイダーが気づけばそれも無意味になるでしょう):

- https://marginlab.ai/trackers/claude-code-historical-performance/

- https://aistupidlevel.info/

投稿者: /u/pier4r
[リンク] [コメント]