Abstract
例として、トランスフォーマーやディープカルマンフィルタに代表される注意機構に基づく深層学習モデルが確率フィルタリングに用いられることは、近年注目を集めています。しかし、これらのモデルが確率フィルタリング問題を解ける可能性は、いまだ十分に明らかになっていません。本論文は、機械学習の理論的基盤における未解決問題に対して肯定的な答えを提示します。すなわち、 extit{filterformers} と呼ばれる連続時間のトランスフォーマーモデルの一クラスが、ノイズを含む連続時間(場合によっては非ガウス)の観測が与えられたもとで、幅広い非マルコフかつ条件付きガウス信号過程の条件付き法則を近似的に実装できることを示します。近似保証は、連続時間パスの十分に正則なコンパクト部分集合上で一様に成り立ちます。そこでの近似誤差は、真の最適フィルタと我々の深層学習モデルの間の最悪ケースの 2-Wasserstein 距離によって定量化されます。我々の構成は、標準的な注意機構に対する2つの新しいカスタマイズに依存しています。前者は、十分に正則なパスの集合が低次元のユークリッド空間へ双リプシッツ埋め込みされることを示すことで、注意機構が幅広い種類のパスの特性に対して損失なく適応できるようにします。したがって、「``次元削減誤差''」は生じません。後者の注意機構は、2-Wasserstein 空間におけるガウス測度の幾何に合わせて設計されています。我々の解析は、条件付きガウス設定における頑健な最適フィルタの新しい安定性評価に依拠しています。