揺りかごか、それともかき混ぜるか？医用画像におけるMetaFormerのトークンミキシング分析

arXiv cs.CV / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本研究は、MetaFormerの枠組みにおけるさまざまなトークンミキサ（プーリング型・畳み込み型・アテンション型）を、医用画像タスクに特化して初めて包括的に比較します。
実験では、画像分類（グローバル予測）とセマンティックセグメンテーション（密な予測）の両方を扱い、7つの2Dと2つの3Dを含む計9つのデータセットで評価します。
画像分類においては、グループ畳み込みやプーリングのような低複雑度のトークンミキサで十分であることが示され、自然画像の知見と整合します。
セグメンテーションでは、畳み込み型トークンミキサの局所的な帰納バイアスが重要であり、標準畳み込みより実行時間とパラメータ数を抑えられるグループ畳み込みが最適として浮上します。
さらに、自然画像での事前学習済み重みの転用も評価し、新しいトークンミキサへの切り替えによるドメインギャップがあっても、状況によっては依然として有効であることを示します。

Abstract

MetaFormer による Transformer アーキテクチャの一般化は、コンピュータビジョンにおけるその成功に対する理解を大きく変えました。自己注意をより単純なトークンミキサーに置き換えることで、MetaFormer は視覚タスクに対する強力なベースラインを提供します。しかし、自然画像データセットで広く研究されている一方で、医用画像における利用はまだ稀であり、既存研究では異なるトークンミキサーを比較することがほとんどありません。そのため、より適した設計上の選択肢を見落としている可能性があります。本研究では、医用画像向けのトークンミキサーに関する初の包括的な調査を提示します。MetaFormer アーキテクチャ内で、プーリングベース、畳み込みベース、注意ベースのトークンミキサーを、画像分類（グローバル予測タスク）と意味的セグメンテーション（密な予測タスク）において体系的に分析します。評価は 9 種類のデータセット（2D が 7、3D が 2）にまたがり、医療領域で一般的な課題と多様なモダリティをカバーします。医療データの不足を緩和するために自然画像からの事前学習が広く行われていることを踏まえ、新しいトークンミキサーへの事前学習済み重みの転移についても検討します。その結果、分類においては、低複雑度のトークンミキサー（例：グループ畳み込みまたはプーリング）で十分であることが示され、自然画像に関する知見と整合します。トークンミキサーの変更によって導入されるドメインギャップがあるにもかかわらず、事前学習済み重みは一部の状況で有用性を保ちます。セグメンテーションでは、畳み込みベースのトークンミキサーが持つローカルな帰納バイアスが不可欠であることが分かります。グループ畳み込みは標準的な畳み込みと比べてランタイムとパラメータ数を削減できるため、最適な選択肢として現れます。一方で、MetaFormer's のチャネル MLP は、必要なチャネル間相互作用をすでに提供しています。