粗い認識と細かい認識をつなぐ:インタラクティブな教育ゲーム向けオープンエンド多粒度物体認識のハイブリッド手法
arXiv cs.CV / 2026/4/21
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、オープンエンドで粗い粒度の認識を行うMLLMと、ドメイン固有の物体を細かく同定するCLIP型モデルを組み合わせた、ハイブリッド物体認識フレームワークHyMORを提案している。
- HyMORは、複数の意味的粒度にまたがる物体理解の精度向上を目的としており、多モーダルなコンテンツ生成やインタラクティブな教育ゲームのための認識基盤を提供することを狙っている。
- 著者らは、教育向けのコンテンツ豊富な状況で評価できるよう、教科書から抽出した8,816カテゴリを含む20,942枚の画像からなるTBO(TextBook Objects)データセットを導入している。
- 実験では、CLIPに対する細粒度認識ギャップを0.2%まで縮小し、平均Sentence-BERT(SBert)類似度でベースラインMLLMより一般物体認識を2.5%改善したと報告されている。
- 本研究は、マルチモーダル生成やゲームコンテンツ作成を支えるために、インタラクティブ学習アプリでの堅牢かつ高精度な認識性能に焦点を当てている。




