Transformerは連続時間における条件付きガウス信号の非線形かつ非マルコフ的なフィルタリング問題を解決できる

arXiv stat.ML / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は理論的に、連続時間のトランスフォーマーに基づくモデル（「フィルターフォーマー」）が、ノイズを伴う連続時間の観測の下で、広いクラスの非マルコフ的かつ条件付きガウスな信号過程に対する条件付き分布（最適フィルタ）を近似的に実装できることを示す。
真の最適フィルタと深層学習モデルの間の最悪ケースの2-Wasserstein距離によって定量化された近似保証を提示し、十分に正則なコンパクトな軌道集合にわたって一様に成立する境界を与える。
提案アーキテクチャでは、標準的な注意機構を2点の重要なカスタマイズにより改変する。具体的には、正則な経路集合に対して双リプシッツ埋め込みを与える注意（次元削減に起因する誤差を回避する）と、2-Wasserstein空間におけるガウス測度の幾何に合わせた注意を導入する。
解析では、条件付きガウスの枠組みにおける頑健な最適フィルタに対する新しい安定性評価も導入しており、これが近似結果の基盤の一部を成す。
全体として本研究は、確率的フィルタリングにおいて注意機構／トランスフォーマーを用いるための理論的基礎を前進させ、これらのモデルがヒューリスティックな主張を超えてこうした問題を解けるのかという未解決の問いに取り組む。

Abstract

例として、トランスフォーマーやディープカルマンフィルタに代表される注意機構に基づく深層学習モデルが確率フィルタリングに用いられることは、近年注目を集めています。しかし、これらのモデルが確率フィルタリング問題を解ける可能性は、いまだ十分に明らかになっていません。本論文は、機械学習の理論的基盤における未解決問題に対して肯定的な答えを提示します。すなわち、 extit{filterformers} と呼ばれる連続時間のトランスフォーマーモデルの一クラスが、ノイズを含む連続時間（場合によっては非ガウス）の観測が与えられたもとで、幅広い非マルコフかつ条件付きガウス信号過程の条件付き法則を近似的に実装できることを示します。近似保証は、連続時間パスの十分に正則なコンパクト部分集合上で一様に成り立ちます。そこでの近似誤差は、真の最適フィルタと我々の深層学習モデルの間の最悪ケースの 2-Wasserstein 距離によって定量化されます。我々の構成は、標準的な注意機構に対する2つの新しいカスタマイズに依存しています。前者は、十分に正則なパスの集合が低次元のユークリッド空間へ双リプシッツ埋め込みされることを示すことで、注意機構が幅広い種類のパスの特性に対して損失なく適応できるようにします。したがって、「``次元削減誤差''」は生じません。後者の注意機構は、