要旨:深層学習の計算機ビジョンにおける成功は、深い畳み込みニューラルネットワーク(CNN)から大規模な Vision Transformers(ViT)へと拡大するモデルによって推進されてきました。これらのアーキテクチャは有効ではあるものの、パラメータ集約的で膨大な計算資源を必要とし、リソース制約のある環境での展開を制限します。小さな再帰モデル(TRM)によって、反復的な状態の改良を通じて小さな再帰的ネットワークが複雑な推論タスクを解決できることを示すことに触発され、\textbf{Vision Tiny Recursion Model (ViTRM)} を導入します:パラメータ効率の高いアーキテクチャで、L層の ViT エンコーダを、単一の小さな k-層ブロック(k{=}3)を再帰的に N 回適用するものに置換します。CNNベースのモデルおよび ViT に比べて、それぞれ最大で 6 \times および 84 \times 少ないパラメータを使用するにもかかわらず、ViTRM は CIFAR-10 および CIFAR-100 で競争力のある性能を維持します。これは、再帰的計算が視覚領域におけるアーキテクチャの深さの実用的でパラメータ効率の高い代替手段であることを示しています。
Vision Tiny Recursion Model (ViTRM): 再帰的状態の洗練によるパラメータ効率の画像分類
arXiv cs.CV / 2026/3/23
📰 ニュースModels & Research
要点
- Vision Tiny Recursion Model (ViTRM) は、L層の ViT エンコーダを、固定回数だけ再帰的に適用される小さな3層ブロックに置換して、反復的な状態の洗練を行う。
- CNNベースのモデルより最大で6分の1のパラメータ数、 ViTより最大で84分の1のパラメータ数を達成しつつ、CIFAR-10およびCIFAR-100で競争力のある精度を維持する。
- この手法は、再帰的計算が視覚タスクにおける深いアーキテクチャの積み重ねの代替になることを、性能を犠牲にすることなく示している。
- パラメータ効率の高い視覚モデルを可能にすることで、ViTRMは資源制約のある環境での展開を広げ、今後のモデル設計に影響を与える可能性がある。

