Abstract
私たちは、周波数領域処理によって生のUTF-8バイトに直接動作するテキスト分類アーキテクチャ「Kathleen」を提示します。これにより、トークナイザは不要で、注意機構も不要であり、パラメータ数はわずか733Kです。Kathleenは、次の3つの新規コンポーネントを導入します:(1) RecurrentOscillatorBanks -- O(L)のシーケンス処理のための時間的メモリを備えた減衰正弦畳み込み。(2) FFT-Rotate Wavetable Encoder -- 単一の学習可能ベクトル(256個のfloat)で256のバイト値すべてを写像し、従来の埋め込みテーブル(65Kパラメータ)を置き換えつつ精度を向上させます。(3) PhaseHarmonics -- 6つの学習可能な位相パラメータだけで実現する正弦ベースの非線形性であり、我々のアブレーションでは、これが最もインパクトの大きい構成要素であることが特定されます(+2.6%の精度向上、モデルパラメータの<0.001%)。1.8Mパラメータの先行モデルに対する包括的なアブレーションにより、周波数領域の構成要素が複雑な認知的アーキテクチャを体系的に上回ることを示します。560Kパラメータのバイオインスパイアードな枠組みを取り除くだけで損失は-0.2%にとどまる一方、6パラメータのPhaseHarmonicsを取り除くと-2.6%となります。その結果得られたKathleen-Cleanは、IMDBで88.6%、AG Newsで92.3%、SST-2で83.3%を達成し、16倍多いパラメータを持つトークナイズ版の対応手法を上回ります(IMDBで+1.6%、AG Newsで+2.1%)。KathleenはシーケンスをO(L)時間・メモリで処理し、O(L^2)のTransformerがGPUメモリを使い果たしてしまうようなシーケンス長でも、バイトレベルの動作を可能にします。