今日、論文やニュースを読んでいたら、この 投稿/ブログ に出くわしました。そこで、大きなアーキテクチャのブレークスルーがあると主張していて、12Mトークンのコンテキストウィンドウ、opus や gemini など他のモデルよりも優れており、しかもコストは驚くほど 5% 未満で、さらに flashattention よりトークン処理が 52X 速いと書かれています。はい、数字の読み間違いではなく、52倍です。ここまで来ると、私は即座に BS(でたらめ)だと思って、正直1つ動かしてみようと考えました。ですが、試してみたり再現したりするためのコード、論文、API、あるいはそれに相当するものが何もありません。
なので、もしかしたら私が完全にバカで、どういうわけかこれが次の "attention is all you need" 的なものなのでは…という、ほんの少しの可能性があるのかも、と考えました。みなさんはどう思いますか?正直私は BS だと思っています。
[リンク] [コメント]



