要旨: 顕微鏡の細胞画像の意味論的セマンティックセグメンテーションを深層学習で行うことは重要な技術である。近年、画像認識においてCNNを上回る成果を出してきたTransformerは、細胞画像のセグメンテーションにおいても改良され、発展できるのではないかと考えた。Transformerは、詳細な情報よりも文脈情報により強く注意を向ける傾向がある。この傾向は、セグメンテーションに必要な詳細情報の不足につながる。そこで、失われた詳細情報を補完または強化するために、人の視覚野におけるフィードバック処理が有効であるはずだという仮説を立てた。提案するFeedback Formerは、Transformerをエンコーダとして用い、フィードバック処理メカニズムを備えたセマンティックセグメンテーションのための新しいアーキテクチャである。詳細情報を含む特徴マップを、モデルの出力近傍から低次の層へとフィードバックし、Transformerの弱点である詳細情報の不足を補うことで、セグメンテーション精度を向上させる。3つの細胞画像データセットに対する実験により、本手法はフィードバックなしの手法を上回ることを確認し、細胞画像セグメンテーションにおける優れた精度を示した。本手法は、従来のフィードバック手法よりも計算コストを低く抑えつつ、より高いセグメンテーション精度を達成した。さらに本手法は、単にTransformerエンコーダのモデルサイズを増やすことなく、より高い精度を提供し、低い計算コストで高い精度を実現することを示した。
フィードバック・フォーマーを用いた細胞画像セグメンテーションの精度向上
arXiv cs.CV / 2026/4/29
📰 ニュースModels & Research
要点
- 本論文は、Transformerが画像認識で高い性能を示す一方で、文脈情報を重視する傾向によりセグメンテーションで必要な微細な詳細情報が不足しやすいと指摘している。
- 「Feedback Former」と呼ばれる新しい細胞画像の意味論的セグメンテーション向けアーキテクチャを提案し、Transformerエンコーダにフィードバック処理機構を組み合わせている。
- モデルの出力近傍から、詳細情報を含む特徴マップを下位層へフィードバックし、Transformerの弱点である詳細情報の欠落を補う仕組みになっている。
- 3つの細胞画像データセットで、フィードバックなしの手法よりも精度が向上することを実験で確認した。
- 従来のフィードバック手法よりも計算コストを抑えつつ高い精度を実現し、さらにTransformerエンコーダのモデルサイズを単純に増やすことなく精度と効率の両立を示している。


