なぜ大手ラボ(GPT、Claudeなど)のモデルが実世界での利用を支配しているのか理解しようとしています。たとえば、これは高価な事前学習(pretraining)の計算予算によるものだと言えるかもしれませんが、同じ規模のところにはすでに多くの事前学習済みのオープンソースモデルが存在します(例:Kimi)。
もちろん、KimiはClaudeほどは良くありませんが、ClaudeをClaudeたらしめているのは事前学習の上にあるRLですよね? KimiやDeepSeekなどは、すでに高価な事前学習が済んでいて、その上にあるRLHFがClaudeをClaudeたらしめている、という理解で合っていますか?それなら、より小規模なラボにとってコスト面ではずっとアクセスしやすいはずですよね?
[link] [comments]




