16kで簡単に雑なテストをしてみたんですが、かなり面白い結果でした。
デュアルの3090で動作
コンテキストVRAM: Turbo 1.8gb -- LM 5.4gb
Turbo -- LM
12の事実想起: 8 / 8 -- 8 / 8
命令の規律: ルール違反1件 -- 違反0件
ミッドプロンプト想起トラップ: 5 / 5 -- 5 / 5
A1からA20の項目想起: 6 / 6 -- 6 / 6
アーカイブ読み込みのストレス: 15 / 20 -- 20 / 20
Vault Sealed(重い気が散る状況): 19 / 20 -- 20 / 20
Deep Vault Sealed(ほぼ限界): 26 / 26 -- 26 / 26
目的の想起合計: 79 / 85 -- 85 / 85
なのでLMの勝ちではありましたが、考慮するとTurboもかなり健闘していました。
turboquantだとTok/sが少し遅くなりました。
TTFTは変わりませんでした。
すごくクールな技術だと思いました。コンテキストをどれくらい大きくできるかは確認していませんでしたが。対決形式のテストでは、LMだとデュアル3090で16k以上は入らなかったので、そこで止めました。
使用例によっては、これは妥当なトレードオフだと思います。
turboquantをいじっていて、似たような結果が出た人いますか?
[リンク] [コメント]



