要旨: 中国南西部のナシ族に伝わる貴重な絵画的遺産であるドンバ絵画は、豊かに重層化された視覚要素、鮮やかなカラーパレット、そして顕著な民族的・地域的な文化的象徴性を特徴とするが、主要なキャプション生成モデルをそのまま適用した際に生じる深刻なドメインシフトのため、自動的なテキスト記述はほとんど未解明のままである。本論文では、
\textbf{PVGF-DPC}(\textit{Prompt and Visual Semantic-Generation Fusion-based Dongba Painting Captioning})を提案する。これは、内容プロンプトモジュールと、新しい視覚セマンティック生成融合損失を統合したエンコーダ・デコーダ型の枠組みであり、汎用的な自然画像キャプション生成と、ドンバ美術に見られる文化固有のイメージとの間にあるギャップを埋めることを目的とする。MobileNetV2 エンコーダは識別的な視覚特徴を抽出し、それを、事前学習済み BERT 重みで初期化された 10 層の Transformer デコーダの層正規化へ注入する。一方で、内容プロンプトモジュールは画像特徴ベクトルを \emph{deity}(神性)、\emph{ritual pattern}(儀礼の模様)、または \emph{hell ghost}(地獄の鬼)といった文化に配慮したラベルへ写像し、それらを踏まえたポストプロンプトを構築することで、デコーダを主題的に正確な記述へと導く。視覚セマンティック生成融合損失は、プロンプト予測器とキャプション生成器の双方の交差エントロピー目的関数を共同で最適化し、モデルが重要な文化的・視覚的手がかりを抽出し、入力画像と意味的に整合したキャプションを生成することを促す。さらに、7つのテーマカテゴリにまたがる文化的に根拠づけられた注釈を含む、拡張画像 9{}408 枚からなる専用のドンバ絵画キャプションデータセットを構築する。
プロンプト学習とセマンティック融合によるドンバ絵画のキャプション生成
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、汎用の画像キャプション生成モデルと文化固有のドンバ絵画との間に存在する深刻な不一致に対処するドメインブリッジング手法を導入し、ドンバ絵画のキャプション生成が難しい点に取り組む。
- MobileNetV2の視覚エンコーダと、事前学習済みBERTの重みで初期化した10層のTransformerデコーダを用いるエンコーダ–デコーダシステムPVGF-DPCを提案し、生成を文化に配慮したラベルへ誘導する仕組みを導入する。
- コンテンツプロンプトモジュールは抽出した画像特徴を、神格、儀礼のパターン、地獄の鬼といったドンバ関連の概念へマッピングし、デコーダを導くためのプロンプトを形成する。
- 本手法は、プロンプト予測器とキャプション生成器の双方の目的を共同で最適化する、視覚セマンティック生成融合の損失を追加し、入力とのセマンティック整合性を高める。
- 著者らはさらに、7つの主題カテゴリにまたがる注釈を含む9,408枚の拡張画像からなる、ドンバ向けの専用キャプションデータセットも公開している。
