私は、ollamaのような推論エンジンを作るのにかなりの時間を費やしました。Goでピュアなバイブでコーディングしていました。最適化するように何度も工夫していて楽しかったのですが、しばらくして本当に何が起きているのかを知りたくなりました。そうすれば、その最適化が何についてのものなのか、そしてなぜ一部が私の期待どおりに動かなかったのかを、きちんと理解できるからです。これは、推論について素早くキャッチアップできるように配慮された、初心者にも優しい、そうした記事のパート1です。このパートでは推論の仕組みを深掘りします。
[リンク] [コメント]




