ソーシャルメディア上の説明可能な人道分類のためのクロスモーダル根拠転移

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 設計上解釈可能なマルチモーダル分類フレームワークを提案します。視覚と言語のトランスフォーマーを用いてテキストと画像の表現を共同に学習し、予測を説明するテキスト根拠を抽出します。
  • 本手法はクロスモーダル根拠転移を導入し、テキスト根拠を画像根拠へ写像することで注釈の労力を削減します。
  • CrisisMMDデータセット上でMacro-F1を2–35%向上させ、ゼロショットモードで80%の精度を達成するとともに、説明としてテキスト根拠と画像パッチを出力します。
  • 人間評価では、取得された画像根拠パッチの約12%の改善を報告し、人道的カテゴリの同定を支援します。

要旨: ソーシャルメディアデータの普及の進展により、危機時にリアルタイム情報を提供できるようになりました。情報は、インフラの損傷、影響を受けた地域で行方不明または取り残された人々など、さまざまなカテゴリから来ます。既存の手法はテキストと画像をさまざまな人道的カテゴリに分類しようとしましたが、意思決定プロセスは依然として不透明であり、それが実際の応用での展開に影響します。最近の研究は、予測クラスを説明するためにツイートからテキスト根拠を抽出することで透明性を高めようとしています。しかし、このような説明可能な分類手法は主にテキストに焦点を当てており、危機関連の画像にはあまり焦点を当てていません。本論文では、設計段階から解釈可能性を備えたマルチモーダル分類フレームワークを提案します。私たちの手法はまず、テキストと画像の結合表現を視覚言語トランスフォーマーモデルを用いて学習し、テキスト根拠を抽出します。次に、テキスト根拠とのマッピングを介して画像根拠を抽出します。クロスモーダル根拠転移を通じて、あるモダリティの根拠を別のモダリティから学習する方法を示し、アノテーション作業を削減します。最後に、抽出された根拠に基づいてツイートを分類します。実験は CrisisMMD ベンチマークデータセット上で行われ、提案手法は分類 Macro-F1 を 2–35% 向上させつつ、正確なテキストトークンと画像パッチを根拠として抽出することを示しています。人間の評価も、提案手法が人道的カテゴリの識別に役立つより良い画像根拠パッチを12%取得できるとする主張を裏付けています。私たちの手法は、新規で見ていないデータセットにもゼロショットモードで適応し、80% の精度を達成します。