揺りかごか、それともかき混ぜるか?医用画像におけるMetaFormerのトークンミキシング分析
arXiv cs.CV / 2026/4/27
💬 オピニオンModels & Research
要点
- 本研究は、MetaFormerの枠組みにおけるさまざまなトークンミキサ(プーリング型・畳み込み型・アテンション型)を、医用画像タスクに特化して初めて包括的に比較します。
- 実験では、画像分類(グローバル予測)とセマンティックセグメンテーション(密な予測)の両方を扱い、7つの2Dと2つの3Dを含む計9つのデータセットで評価します。
- 画像分類においては、グループ畳み込みやプーリングのような低複雑度のトークンミキサで十分であることが示され、自然画像の知見と整合します。
- セグメンテーションでは、畳み込み型トークンミキサの局所的な帰納バイアスが重要であり、標準畳み込みより実行時間とパラメータ数を抑えられるグループ畳み込みが最適として浮上します。
- さらに、自然画像での事前学習済み重みの転用も評価し、新しいトークンミキサへの切り替えによるドメインギャップがあっても、状況によっては依然として有効であることを示します。



![[AI] Chat GPT5.2 thinking:東大理三入試最高点を50点超えの衝撃](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F270859710%2Frectangle_large_type_2_3a417dfd162712fe90da88d175acc72d.jpeg%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
