AI Navigate

HAViT: 歴史的アテンションを活用したビジョントランスフォーマー

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HAViTは、エンコーダ層全体にわたって歴史的アテンション行列を保存・統合することで、ビジョントランスフォーマーにおける層間情報の流れを洗練させる層間横断アテンション伝播を提案します。
  • 本手法は最小限のアーキテクチャ変更で済み、アテンション行列の保存とブレンディング操作の追加のみを必要とします。
  • CIFAR-100およびTinyImageNetにおける実験は、ViTの各バリアントで一貫した精度向上を示し、CIFAR-100は75.74%から77.07%へ、TinyImageNetは57.82%から59.07%へ向上します。CaiTも約1%改善します。
  • 本研究は最適なブレンディングのハイパーパラメータ(alpha = 0.45)を特定し、ランダム初期化が収束を促進することを指摘します。コードはGitHubで公開されています。

要約: Vision Transformer(ViT)はコンピュータビジョン分野で卓越していますが、自己注意機構は層間で独立して動作するため、情報の流れと特徴量の学習を制限しています。
私たちは、エンコーダ層を横断する歴史的な自己注意マトリクスを保存・統合する、効果的な層間アテンション伝播法を提案します。これにより、Vision Transformerにおける層間情報の流れを原理に基づいて洗練させます。
この手法は、トランスフォーマーの階層全体にわたってアテンションパターンを漸進的に洗練させ、特徴量の獲得と最適化ダイナミクスを向上させます。
この手法は最小限のアーキテクチャ変更を必要とし、アテンションマトリクスのストレージとブレンディング処理を追加するだけです。
CIFAR-100およびTinyImageNetでの包括的な実験は一貫した精度の向上を示し、ViTの性能はCIFAR-100で75.74%から77.07%へ(+1.33%)、TinyImageNetで57.82%から59.07%へ(+1.25%)向上しました。
アーキテクチャ横断検証は、トランスフォーマーのバリアント全体で同様のゲインを示し、CaiTは1.01%の改善を示しました。
系統的分析により、歴史的注意のブレンディングハイパーパラメータ(alpha = 0.45)は、すべての構成で最適であることが特定され、現在の注意情報と歴史的注意情報の理想的なバランスを提供します。
乱数初期化はゼロ初期化を一貫して上回り、多様な初期アテンションパターンが収束を加速し最終性能を向上させることを示しています。
私たちのコードは https://github.com/banik-s/HAViT で公開されています。