要旨: 長い系列への大規模言語モデル(Large Language Models)のスケーラビリティは、注意(attention)の二次的な計算コストと、位置エンコーディングの制約によって妨げられています。これらに対処するために、私たちは新しいアーキテクチャであるCaracalを導入します。Caracalは、注意をパラメータ効率の高い mathcal{O}(L log L) Multi-Head Fourier(MHF)モジュールで置き換えます。貢献は3つあります。(1)系列混合に高速フーリエ変換(Fast Fourier Transform: FFT)を利用し、上記2つのボトルネックの両方を本質的に解決します。(2)周波数領域での因果マスキング手法を適用し、不対称なパディングと切り詰めによって自己回帰能力を強制することで、フーリエベースの生成モデルにとって重要な障壁を克服します。(3)Mambaのようなハードウェア固有の実装に依存する効率的モデルとは異なり、私たちは標準ライブラリの演算子を使用します。これにより、堅牢な移植性が保証され、一般的なデプロイ上の障壁を排除します。評価の結果、CaracalはTransformerおよびSSMのベースラインと競争力のある性能を示し、効率的な長系列モデリングに向けたスケーラブルで単純な道筋を提供します。コードは付録にあります。
Caracal:スペクトル・ミキシングによる因果アーキテクチャ
arXiv cs.AI / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Caracalは、長文脈の言語モデリング向けに注意機構をMulti-Head Fourier(MHF)モジュールで置き換える新しいアーキテクチャで、注意の二次コストや位置埋め込みの制約の解消を狙っています。
- FFTベースのシーケンス混合によりO(L log L)の計算量を実現し、長系列へのスケーラビリティを高めます。
- 周波数領域での因果マスキング(非対称パディングと切り詰め)を導入し、フーリエ系の生成モデルでも自己回帰的な生成能力を維持することに成功しています。
- Mambaのようなハードウェア依存のカーネル実装に頼る効率化モデルとは異なり、Caracalは標準ライブラリ演算子に基づく設計で移植性を高めています。
- 実験ではTransformerおよびSSMのベースラインと競争力のある性能が示され、コードは付録で公開されています。



