要旨: 基盤となる視覚言語モデルは、狭いタスク専用のパイプラインよりも豊かな意味的知覚を提供できるため、ロボティクスにおいてますます重要になりつつあります。しかし、ロボットのソフトウェアスタックへの実際の導入は、モデルの品質だけでなく、再現可能なミドルウェア統合に依存しています。Florence-2 は、比較的扱いやすいモデルサイズの中で、キャプション生成、光学文字認識(OCR)、オープンボキャブラリ検出、グラウンディング、関連する視覚言語タスクを統一するため、特にこの点で魅力的です。本記事では、Florence-2 の ROS 2 ラッパーを提示します。このラッパーは、連続的なトピック駆動処理、同期的なサービス呼び出し、非同期アクションという3つの補完的なインタラクションモードを通じてモデルを公開します。ラッパーはローカル実行を前提に設計されており、ネイティブのインストールと Docker コンテナでのデプロイの両方に対応しています。また、検出指向のタスクでは、汎用的な JSON 出力と、標準の ROS 2 メッセージバインディングを組み合わせています。いくつかの GPU でのスループット調査とともに、機能検証の結果も報告されており、市販グレードのハードウェアでローカルデプロイが実現可能であることを示しています。リポジトリは公開されています: https://github.com/JEDominguezVidal/florence2_ros2_wrapper
Florence-2 用の ROS 2 ラッパー:ロボットシステム向けマルチモード・ローカル視覚言語推論
arXiv cs.RO / 2026/4/2
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文では、Florence-2 の視覚言語モデルを統合する ROS 2 ラッパーを提案し、タスク固有の視覚パイプラインよりもロボットシステムにおいてよりセマンティックな知覚を可能にする。
- Florence-2 を 3 つの対話モード(継続的なトピック駆動処理、同期的なサービス呼び出し、非同期のアクション)で公開し、開発者がロボットスタックに適した制御フローを選択できるようにする。
- このラッパーはローカル実行を前提に構築され、ネイティブインストールと Docker 配備の両方に対応しており、実ロボット用ミドルウェアでの再現性を高めることを目指している。
- 出力として、汎用の JSON に加え、検出指向の視覚言語タスクに合わせた標準的な ROS 2 メッセージのバインディングを提供する。
- 著者らは機能面での検証および GPU スループットの調査を報告し、一般向けの GPU 環境でもローカル配備が実行可能であると結論づけている。




