粗い認識と細かい認識をつなぐ：インタラクティブな教育ゲーム向けオープンエンド多粒度物体認識のハイブリッド手法

arXiv cs.CV / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、オープンエンドで粗い粒度の認識を行うMLLMと、ドメイン固有の物体を細かく同定するCLIP型モデルを組み合わせた、ハイブリッド物体認識フレームワークHyMORを提案している。
HyMORは、複数の意味的粒度にまたがる物体理解の精度向上を目的としており、多モーダルなコンテンツ生成やインタラクティブな教育ゲームのための認識基盤を提供することを狙っている。
著者らは、教育向けのコンテンツ豊富な状況で評価できるよう、教科書から抽出した8,816カテゴリを含む20,942枚の画像からなるTBO（TextBook Objects）データセットを導入している。
実験では、CLIPに対する細粒度認識ギャップを0.2%まで縮小し、平均Sentence-BERT（SBert）類似度でベースラインMLLMより一般物体認識を2.5%改善したと報告されている。
本研究は、マルチモーダル生成やゲームコンテンツ作成を支えるために、インタラクティブ学習アプリでの堅牢かつ高精度な認識性能に焦点を当てている。

Abstract

マルチモーダル大規模言語モデル（MLLM）の最近の進歩により、開放端的な物体認識が可能になった一方で、細粒度タスクではうまく機能しません。これとは対照的に、CLIP型モデルは細粒度認識に優れるものの、一般的な物体カテゴリ全体を広くカバーすることができません。このギャップを埋めるために、MLLMとCLIPモデルを統合した extbf{HyMOR}、すなわち extbf{Hy}brid extbf{M}ulti-granularity のオープンエンドな extbf{O}bject extbf{R}ecognition フレームワークを提案します。HyMORでは、MLLMが開放端的かつ粗い粒度での物体認識を担当し、CLIPモデルは、動物や植物といった領域固有の物体の細粒度同定に特化します。このハイブリッド設計により、複数の意味的粒度にわたる正確な物体理解が可能となり、下流のマルチモーダルコンテンツ生成やインタラクティブなゲームプレイのための堅牢な知覚基盤となります。コンテンツが豊富で教育的なシナリオでの評価を支援するために、教科書から抽出された8,816の物体カテゴリで注釈付けられた20,942枚の画像からなるデータセットTBO（TextBook Objects）を導入します。大規模な実験により、HyMORは、平均Sentence-BERT（SBert）類似度による測定で、ベースラインのMLLMと比べて一般物体認識を2.5 ％向上させつつ、CLIPにおける細粒度認識ギャップを0.2 ％にまで縮めることを示します。全体として、HyMORは評価された全データセットにおける平均SBertで23.2 ％の改善を達成しており、マルチモーダルゲームコンテンツ生成やインタラクティブな学習アプリケーションにおいて正確な知覚を実現する有効性を強調しています。