バイアス付きスキャン注意Transformerニューラルプロセスによるスケーラブルな時空間推論

arXiv stat.ML / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、精度を損なうことなく、並進不変な時空間タスクに対するニューラルプロセスのスケーラビリティを改善するために、バイアス付きスキャン注意Transformerニューラルプロセス(BSA-TNP)を提案する。

Abstract

ニューラルプロセス(NPs)は、確率過程の事後予測分布を直接モデル化するために設計された、急速に進化しているモデルの一群である。初期のアーキテクチャは主としてガウス過程(GP)のスケーラブルな代替として開発されたが、近年のNPは、地質学、疫学、気候、ロボティクスにまたがる、より複雑でデータを大量に必要とする応用に取り組む。これらの応用は、これらのモデルのスケーラビリティに対する要求をますます高めており、多くのアーキテクチャはスケーラビリティのために精度を犠牲にしている。本論文では、このトレードオフがしばしば不要であり、特に完全または部分的に並進不変(translation-invariant)な過程をモデル化する場合に当てはまることを示す。汎用的な新しいアーキテクチャとして、バイアス付きスキャン注意トランスフォーマーニューラルプロセス(Biased Scan Attention Transformer Neural Process; BSA-TNP)を提案する。これは、Kernel Regression Blocks(KRBlocks)、群不変(group-invariant)な注意バイアス、そしてメモリ効率のよいバイアス付きスキャン注意(Biased Scan Attention; BSA)を導入する。BSA-TNPは次のことが可能である:(1)最良の既存モデルの精度に匹敵、あるいはそれを上回りつつ、しばしば訓練時間の一部で学習できる。(2)並進不変性を示し、複数の解像度で同時に学習できる。(3)空間と時間の両方で変化する過程を、透明性をもってモデル化できる。(4)高次元の固定効果をサポートする。(5)スケールが良く、単一の24GB GPU上で1分未満で、100万件超のテスト点と10万件のコンテキスト点に対する推論を実行できる。コードは`dl4bi`パッケージの一部として提供される。