TII、「Falcon Perception」を発表：自然言語プロンプトからのオープン語彙グラウンディングおよびセグメンテーションのための、0.6Bパラメータのアーリーフュージョン・トランスフォーマー

MarkTechPost / 2026/4/3

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

TIIは、「Falcon Perception」を発表。これは0.6Bパラメータのアーリーフュージョン・トランスフォーマーであり、別々の「レゴ・ブロック」型のエンコーダ／デコーダ・モジュールを用いるのではなく、言語と視覚を統合します。
このモデルは、自然言語プロンプトにより駆動されるオープン語彙のグラウンディングおよびセグメンテーションのために設計されており、言語と視覚の相互作用をより滑らかにスケールさせることを目指しています。
アーリーフュージョンを用いることで、言語によるガイダンスが視覚的特徴抽出や下流の予測に情報を与える際のボトルネックの低減を狙っています。
本取り組みは、プロンプト可能なコンピュータビジョンタスクに向けて、より密に結合されたマルチモーダル・アーキテクチャへと至る研究段階として、Falcon Perceptionを位置づけています。

現在のコンピュータビジョンの分野において、標準的な運用手順は「モジュール式の’レゴブロック’」アプローチです。すなわち、特徴抽出のための事前学習済みの視覚エンコーダと、タスク予測のための別個のデコーダを組み合わせます。これは有効ではあるものの、このアーキテクチャ上の分離によってスケーリングが複雑になり、言語と視覚の相互作用がボトルネック化します。テクノロジー・イノベーション・インスティテュート（TII）の研究チームは、この状況に挑んでいます[…]

この記事 TII Releases Falcon Perception: A 0.6B-Parameter Early-Fusion Transformer for Open-Vocabulary Grounding and Segmentation from Natural Language Prompts は、MarkTechPost に最初に掲載されました。