Mayank Pratap Singhによる、優れたビジュアルでViT(Vision Transformer)を基礎から紹介する、すっきりとしたブログ記事です。この投稿では次の内容を扱っています:
- パッチ埋め込み(Patch embedding)
- Vision Transformerのための位置エンコーディング(Positional encodings)
- 分類のための、エンコーダのみのモデルとしてのViT
- ViTの利点、欠点、そして実世界での応用
- 画像分類のためのViTのファインチューニング
ブログ全文はこちら:
https://www.vizuaranewsletter.com/p/vision-transformers
追加リソース:
- 画像は16×16語の価値がある https://arxiv.org/abs/2010.11929
- 論文のYannic Kilcherによるディスカッション https://www.youtube.com/watch?v=TrdevFK_am4
- スパースTransformerで長い系列を生成する https://arxiv.org/abs/1904.10509
- ピクセルからの生成的事前学習 https://proceedings.mlr.press/v119/chen20s.html
最後の2本の論文を含めました。これは、パッチ化によるViTとの差分をうまく見せているからです。2D入力構造(*)の知識をパッチ化して取り込むのではなく、GPT-2規模で強力な内部画像表現を得るために「力ずくで」行っています。(*) なお、https://arxiv.org/abs/1904.10509 はカスタムの、バイト単位の位置埋め込みを使用していることに言及しておくべきでしょう。
[リンク] [コメント]

