LLMが学習できるシンボルの有限の集合があります。もちろん、起こりうる組み合わせの数は膨大ですが、その多くは妥当でも意味を持つものでもありません。大手はスケーリング則がまだ機能していると主張していますが、いずれは止まると私は考えています――少なくとも、私たちのシンボルのうち最も意味のある組み合わせの大半がカバーされた時点では。パラメータが約500Bのモデルでも、非常に多くの組み合わせを表現できます。では、Claude Opus 4.6のようなものは、それがより大きいから良いのでしょうか?それとも、彼らが内部で使っているトリックや最適化のためでしょうか? [リンク] [コメント]