コンポーネントに基づくマルチモーダル知識拡張により甲骨文字の解釈を行うための大規模モデルの特化
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、文字の構成要素を明示的に根拠づけ(グラウンディング)し、その後それらの意味論を推論することで、クローズドセットの画像認識手法が残す「解釈ギャップ」を埋める、エージェント駆動の視覚言語モデルフレームワークを提案する。
- 構成要素レベルでの視覚的グラウンディングを行う視覚言語モデルと、成分同定、グラフベースの知識検索、関係推論を含む推論パイプラインを自動化するLLMベースのエージェントを組み合わせる。
- 著者らは、新たな専門家アノテーション付きデータセットOB-Radixを導入する。これは、1,022枚の文字画像(934種類)と、478の構成要素にまたがる1,853枚の細粒度の構成要素画像を含み、検証済みの説明および構造・意味ラベルを備える。
- 3つのベンチマークにまたがる実験では、本アプローチがベースライン手法よりも詳細かつ正確な解読をもたらすことが示され、構成要素の再利用と、転移可能な象形的意味論の恩恵が強調される。
- 本研究は、歴史的視覚のデコードというタスクに特化した大規模モデル手法として位置づけられており、対象物が意味論的に有意なサブコンポーネントから構築される他の解釈領域にも再利用可能な設計図となり得ることを示唆する。



