MoKus: クロスモーダル知識転移を活用した知識対応型概念カスタマイズ

arXiv cs.AI / 2026/3/16

💬 オピニオンModels & Research

要点

  • MoKus は、希少トークンを使用する際の忠実性と安定性を向上させるために、さまざまなテキスト知識を対象となる視覚概念に結びつける知識認識型の概念カスタマイズタスクを導入する。
  • 核心となるアイデアはクロスモーダル知識転移である。テキストプロンプト内の知識を変更すると、それが自然に視覚生成へ転移する。
  • このフレームワークは2つの段階を用いる。視覚概念の学習を通してアンカー表現を作成し、テキスト知識の更新によって知識クエリをアンカーに合わせる。
  • 著者らは KnowCusBench をこのタスクの初のベンチマークとして提案し、MoKus がこのベンチマークおよび関連する世界知識テストにおいて最先端手法を上回ることを示している。
  • この手法は仮想概念の作成や概念の消去といった他の知識対応型アプリケーションにも拡張可能であり、マルチモーダル生成タスク全般にわたるより広い適用性を示している。

要約: 概念カスタマイズは通常、希少なトークンを対象概念に結び付けます。残念なことに、これらのアプローチは事前学習データにはこれらの希少トークンがほとんど含まれていないため、安定した性能を欠くことが多いです。一方で、これらの希少トークンは対象概念の固有知識を伝えることができません。その結果、知識を考慮した概念カスタマイズ(Knowledge-aware Concept Customization)という新しいタスクを導入します。このタスクは、さまざまなテキスト知識を対象視覚概念に結び付けることを目的としています。このタスクでは、モデルがテキストプロンプト内の知識を特定して高忠実度のカスタマイズ生成を行う必要があります。同時に、モデルはテキスト知識をすべて対象概念に効率的に結び付けるべきです。したがって、知識を考慮した概念カスタマイズの新しいフレームワークMoKusを提案します。我々のフレームワークは、重要な観察「クロスモーダル知識移転」に依存します。すなわち、テキストモダリティ内の知識を変更すると、生成時に視覚モダリティへ自然に転送される、というものです。この観察に触発され、MoKusには二つの段階があります:(1) 視覚概念学習では、対象概念の視覚情報を格納するアンカー表現を最初に学習します。 (2) テキスト知識の更新では、知識クエリへの回答をアンカー表現へ更新し、ハイファイデリティなカスタマイズ生成を可能にします。新しいタスクに対して提案されたMoKusをより包括的に評価するため、知識を考慮した概念カスタマイズの最初のベンチマークKnowCusBenchを導入します。広範な評価により、MoKusが最先端の手法を上回ることが示されています。さらに、クロスモデル知識移転により、MoKusは仮想概念生成や概念抹消など、他の知識認識アプリケーションへ容易に拡張できます。世界知識ベンチマークの改善を達成する能力も示します。

返却形式: {"translated": "翻訳されたHTML"}