Google TurboQuant
これは新しい圧縮アルゴリズムです。モデルが質問に答えるたびに、大量の中間データを保存します。会話が長くなるほど、コストも高くなります。その結果:品質の低下なしでそのデータを6倍以上圧縮し、H100で8倍の速度向上
再学習は不要です。既存のモデルにそのまま組み込むだけ
Moonshot AI(Kimi) Attention Residuals
従来のやり方:各層がそれぞれの出力を受け取り、その下の層から来たものを単純に足し合わせるだけでした。
新しいやり方:隣接する層の出力を機械的にただ取りに行く代わりに、AI自身が「今どの層が重要なのか」と「そこからどれだけ取り込むべきか」を判断します。これは、テキスト内の単語を処理するときに使われているのと同じ注意(attention)メカニズムですが、今回それが水平(単語間)ではなく垂直(層間)に働きます
結果:レイテンシのオーバーヘッドは2%未満で、学習効率が+25%。モデルが不要な荷物を抱え込むのをやめるからです。より正確に「正しい情報を正しい場所へ」振り分けられるため、良い結果に到達するのに必要な学習反復回数が少なくて済みます
(地球上のトップクラスのAI研究者の一人である)Andrej Karpathyが、この取り組みを公に称賛しました。論文の著者の一人が17歳で、試験中にそのアイデアを思いついたのだとか
これがビジネスにとって意味することは?
TurboQuant = 同じ作業負荷なら必要なハードウェアが少なくて済み、手頃な価格で長いコンテキストを実現。Attention Residuals = より安価なモデル学習
[リンク] [コメント]