現在のコンピュータビジョンの分野において、標準的な運用手順は「モジュール式の’レゴブロック’」アプローチです。すなわち、特徴抽出のための事前学習済みの視覚エンコーダと、タスク予測のための別個のデコーダを組み合わせます。これは有効ではあるものの、このアーキテクチャ上の分離によってスケーリングが複雑になり、言語と視覚の相互作用がボトルネック化します。テクノロジー・イノベーション・インスティテュート(TII)の研究チームは、この状況に挑んでいます[…]
この記事 TII Releases Falcon Perception: A 0.6B-Parameter Early-Fusion Transformer for Open-Vocabulary Grounding and Segmentation from Natural Language Prompts は、MarkTechPost に最初に掲載されました。




