千の言葉は一枚の写真より優れているのか？画像を超えて — マルチモーダル知識グラフデータセット拡張のフレームワーク

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Beyond Images は、マルチモーダル知識グラフを拡充するための三段階のデータ中心パイプラインを導入する：追加のエンティティ関連画像の大規模取得、すべてのビジュアルをテキスト説明へ変換、そしてエンティティに整合した要約を生成するLLMベースの融合。
このアプローチは、あいまいでノイズの多いビジュアルをテキストに変換して、標準的な MMKG モデルのアーキテクチャや損失関数を変更することなく、実用的な意味情報を付加する。
実証的な結果は、3つの公開MMKGデータセットと複数のベースラインにおいて一貫した改善を示し、Hits@1で最大7%の向上、視覚的にあいまいなロゴやシンボルに対して顕著な改善をもたらす（例：MRR が 201.35%、Hits@1 が 333.33%）。
説明品質とデータセットの信頼性を向上させるための任意のターゲット監査を可能にする、軽量なテキスト-画像整合性チェック・インターフェースを公開。
本研究には、コード・データセット・補足資料がプロジェクトリポジトリに付随しており、MMKGの完成に向けた画像カバレッジとテキストベースの説明を拡張する実用性を強調している。

概要: マルチモーダル知識グラフ（MMKGs）は視覚情報の恩恵を受ける一方で、規模の大きい画像コレクションを編成するのは難しく、しばしば曖昧だが関連性の高い視覚情報（例：ロゴ、記号、抽象的な場面）を除外してしまう。私たちは Beyond Images を紹介する。これは任意の人間監査を組み込んだ自動データ中心の拡張パイプラインです。このパイプラインは三段階で動作します: (1) 追加のエンティティ関連画像の大規模検索、(2) すべての視覚入力をテキスト説明に変換し、あいまいな画像がノイズではなく有用な意味論を提供するようにする、(3) 大規模言語モデル（LLM）を用いた複数ソースの説明の統合により、簡潔でエンティティに整合した要約を生成します。これらの要約は、標準の MMKG モデルのテキストモダリティを置換または補完しますが、アーキテクチャや損失関数を変更することはありません。3つの公開MMKGデータセットと複数のベースラインモデルを横断して、一定の改善を観察します（全体で最大7% Hits@1）。さらに、視覚的に曖昧なロゴや記号を含むエンティティの難解なサブセットでは、画像をテキストに変換することで大きな改善が得られます（MRR 201.35%、Hits@1 333.33%）。さらに、任意のターゲット監査を可能にする軽量な Text-Image Consistency Check Interface を公開し、説明品質とデータセットの信頼性を向上させます。私たちの結果は、画像のカバレッジを拡大し、曖昧な視覚情報をテキストに変換することが、より強力な MMKG 完成への実用的な道であることを示しています。コード、データセット、および補足資料は https://github.com/pengyu-zhang/Beyond-Images で利用可能です。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

千の言葉は一枚の写真より優れているのか？画像を超えて — マルチモーダル知識グラフデータセット拡張のフレームワーク

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer