推論時の確率的アテンションにより科学的基盤モデルを校正する

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、科学的基盤モデル（トランスフォーマ型）に対して、推論時にアテンションを確率化し、予測不確実性をより適切に“校正”できるようにする「Stochastic Attention」を提案している。
softmax の決定的な重みの代わりに、単一の濃度パラメータで制御される正規化されたマルチノミアルサンプリングを用いることで、再学習なしで予測アンサンブルを作れる。
濃度パラメータを決めるために、確率的アテンション出力と目標の整合を行う校正目的関数を導入し、効率的な一変量の事後チューニングとして解けるとしている。
天気予測と時系列予測の2つの科学的基盤モデル（加えて別の回帰タスク）で評価し、不確実性を意識したベースラインと比べて最も強い“内在的な校正”と、同程度のカバレッジでより鋭い予測区間が得られることを示している。
計算効率も高く、競争力のある性能に到達するまでに必要な事後チューニング時間は分単位で、同等のベースラインが必要とする再学習（数日）と比べて大幅に短いと報告している。

Abstract

トランスフォーマーベースの科学基盤モデルは、高リスクな状況でますます導入されつつありますが、現行のアーキテクチャでは決定論的な出力となり、校正された予測的不確実性に対する十分なサポートが提供されていません。そこで本研究では、軽量な推論時の修正であるStochastic Attention（確率的注意）を提案します。これは、softmaxの重みを、単一の集中パラメータによって制御された正規化された多項分布（multinomial）サンプルで置き換えることで注意をランダム化し、再学習なしで予測アンサンブルを生成します。さらに、このパラメータを設定するために、確率的注意の出力がターゲットと一致するようにする校正目的を導入し、効率的な一変量の事後（post-hoc）チューニング問題として定式化します。私たちは、この仕組みを、天候と時系列予測のための2つの科学基盤モデルと、追加の回帰タスクに対して評価します。不確実性を意識したベースラインとのベンチマークを通じて、Stochastic Attentionは同等のカバレッジにおいて最も強いネイティブな校正と最も鋭い予測区間を実現しつつ、競争力のあるベースラインでの再学習に要する日数ではなく、事後チューニングに要するのはわずか数分で済むことを見出しました。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

推論時の確率的アテンションにより科学的基盤モデルを校正する

要点

Abstract

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer