ここで見落としている何かがないか確認したくて。新しいハードウェアでの性能についての投稿をたくさん見かけるのですが、量子化に関する情報を見逃しているように感じていて、それがいつも小さな文脈(コンテキスト)内での話に留まっているように思えます。
私の認識では、llm のユースケースは一般に、かなり大きなコンテキストを必要とするはずです。私の場合、埋め込み(embedding)を含めると 4〜8k 程度で、手元の小規模なコードベースで作業すると 50k+ になります。また、量子化(quants)が、モデルの性能において返ってくる内容と速度(kv 量子化も含む)に与える影響も把握しています。
私のユースケースはおそらく多くの人たちと大きくは違わないと思うので、小さなコンテキストでのテストに注目している理由、そして他の情報がない状態でのことを理解しようとしています。こうした種類のテストが何を示しているのか、あるいは AI プラットフォームの内部動作についての重要な洞察を、私は見落としているのでしょうか?
コメント歓迎です。
[link] [comments]



