AI Navigate

千の言葉は一枚の写真より優れているのか? 画像を超えて — マルチモーダル知識グラフデータセット拡張のフレームワーク

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Beyond Images は、マルチモーダル知識グラフを拡充するための三段階のデータ中心パイプラインを導入する:追加のエンティティ関連画像の大規模取得、すべてのビジュアルをテキスト説明へ変換、そしてエンティティに整合した要約を生成するLLMベースの融合。
  • このアプローチは、あいまいでノイズの多いビジュアルをテキストに変換して、標準的な MMKG モデルのアーキテクチャや損失関数を変更することなく、実用的な意味情報を付加する。
  • 実証的な結果は、3つの公開MMKGデータセットと複数のベースラインにおいて一貫した改善を示し、Hits@1で最大7%の向上、視覚的にあいまいなロゴやシンボルに対して顕著な改善をもたらす(例:MRR が 201.35%、Hits@1 が 333.33%)。
  • 説明品質とデータセットの信頼性を向上させるための任意のターゲット監査を可能にする、軽量なテキスト-画像整合性チェック・インターフェースを公開。
  • 本研究には、コード・データセット・補足資料がプロジェクトリポジトリに付随しており、MMKGの完成に向けた画像カバレッジとテキストベースの説明を拡張する実用性を強調している。

概要: マルチモーダル知識グラフ(MMKGs)は視覚情報の恩恵を受ける一方で、規模の大きい画像コレクションを編成するのは難しく、しばしば曖昧だが関連性の高い視覚情報(例:ロゴ、記号、抽象的な場面)を除外してしまう。私たちは Beyond Images を紹介する。これは任意の人間監査を組み込んだ自動データ中心の拡張パイプラインです。 このパイプラインは三段階で動作します: (1) 追加のエンティティ関連画像の大規模検索、(2) すべての視覚入力をテキスト説明に変換し、あいまいな画像がノイズではなく有用な意味論を提供するようにする、(3) 大規模言語モデル(LLM)を用いた複数ソースの説明の統合により、簡潔でエンティティに整合した要約を生成します。 これらの要約は、標準の MMKG モデルのテキストモダリティを置換または補完しますが、アーキテクチャや損失関数を変更することはありません。3つの公開MMKGデータセットと複数のベースラインモデルを横断して、一定の改善を観察します(全体で最大7% Hits@1)。さらに、視覚的に曖昧なロゴや記号を含むエンティティの難解なサブセットでは、画像をテキストに変換することで大きな改善が得られます(MRR 201.35%、Hits@1 333.33%)。さらに、任意のターゲット監査を可能にする軽量な Text-Image Consistency Check Interface を公開し、説明品質とデータセットの信頼性を向上させます。私たちの結果は、画像のカバレッジを拡大し、曖昧な視覚情報をテキストに変換することが、より強力な MMKG 完成への実用的な道であることを示しています。コード、データセット、および補足資料は https://github.com/pengyu-zhang/Beyond-Images で利用可能です。