Vision Tiny Recursion Model (ViTRM): 再帰的状態の洗練によるパラメータ効率の画像分類

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

Vision Tiny Recursion Model (ViTRM) は、L層の ViT エンコーダを、固定回数だけ再帰的に適用される小さな3層ブロックに置換して、反復的な状態の洗練を行う。
CNNベースのモデルより最大で6分の1のパラメータ数、 ViTより最大で84分の1のパラメータ数を達成しつつ、CIFAR-10およびCIFAR-100で競争力のある精度を維持する。
この手法は、再帰的計算が視覚タスクにおける深いアーキテクチャの積み重ねの代替になることを、性能を犠牲にすることなく示している。
パラメータ効率の高い視覚モデルを可能にすることで、ViTRMは資源制約のある環境での展開を広げ、今後のモデル設計に影響を与える可能性がある。

要旨：深層学習の計算機ビジョンにおける成功は、深い畳み込みニューラルネットワーク（CNN）から大規模な Vision Transformers（ViT）へと拡大するモデルによって推進されてきました。これらのアーキテクチャは有効ではあるものの、パラメータ集約的で膨大な計算資源を必要とし、リソース制約のある環境での展開を制限します。小さな再帰モデル（TRM）によって、反復的な状態の改良を通じて小さな再帰的ネットワークが複雑な推論タスクを解決できることを示すことに触発され、\textbf{Vision Tiny Recursion Model (ViTRM)} を導入します：パラメータ効率の高いアーキテクチャで、 $L$ 層の ViT エンコーダを、単一の小さな $k$ -層ブロック（ $k{=}3$ ）を再帰的に $N$ 回適用するものに置換します。CNNベースのモデルおよび ViT に比べて、それぞれ最大で $6 \times$ および $84 \times$ 少ないパラメータを使用するにもかかわらず、ViTRM は CIFAR-10 および CIFAR-100 で競争力のある性能を維持します。これは、再帰的計算が視覚領域におけるアーキテクチャの深さの実用的でパラメータ効率の高い代替手段であることを示しています。

マコトーん

note

Gemini（ジェミニ）はどこの会社が開発？Googleが提供する最新AIの特徴を徹底解説

note

【GPTs】NanoBanana2🍌 vs Perfect Replica Pro😙仕事中、常時マスク姿の同僚が水を飲むため一瞬マスクを外す決定的瞬間‼️

note

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

Vision Tiny Recursion Model (ViTRM): 再帰的状態の洗練によるパラメータ効率の画像分類

要点

関連記事

マコトーん

Gemini（ジェミニ）はどこの会社が開発？Googleが提供する最新AIの特徴を徹底解説

【GPTs】NanoBanana2🍌 vs Perfect Replica Pro😙仕事中、常時マスク姿の同僚が水を飲むため一瞬マスクを外す決定的瞬間‼️

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer