ソーシャルメディア上の説明可能な人道分類のためのクロスモーダル根拠転移

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

設計上解釈可能なマルチモーダル分類フレームワークを提案します。視覚と言語のトランスフォーマーを用いてテキストと画像の表現を共同に学習し、予測を説明するテキスト根拠を抽出します。
本手法はクロスモーダル根拠転移を導入し、テキスト根拠を画像根拠へ写像することで注釈の労力を削減します。
CrisisMMDデータセット上でMacro-F1を2–35％向上させ、ゼロショットモードで80％の精度を達成するとともに、説明としてテキスト根拠と画像パッチを出力します。
人間評価では、取得された画像根拠パッチの約12％の改善を報告し、人道的カテゴリの同定を支援します。

要旨: ソーシャルメディアデータの普及の進展により、危機時にリアルタイム情報を提供できるようになりました。情報は、インフラの損傷、影響を受けた地域で行方不明または取り残された人々など、さまざまなカテゴリから来ます。既存の手法はテキストと画像をさまざまな人道的カテゴリに分類しようとしましたが、意思決定プロセスは依然として不透明であり、それが実際の応用での展開に影響します。最近の研究は、予測クラスを説明するためにツイートからテキスト根拠を抽出することで透明性を高めようとしています。しかし、このような説明可能な分類手法は主にテキストに焦点を当てており、危機関連の画像にはあまり焦点を当てていません。本論文では、設計段階から解釈可能性を備えたマルチモーダル分類フレームワークを提案します。私たちの手法はまず、テキストと画像の結合表現を視覚言語トランスフォーマーモデルを用いて学習し、テキスト根拠を抽出します。次に、テキスト根拠とのマッピングを介して画像根拠を抽出します。クロスモーダル根拠転移を通じて、あるモダリティの根拠を別のモダリティから学習する方法を示し、アノテーション作業を削減します。最後に、抽出された根拠に基づいてツイートを分類します。実験は CrisisMMD ベンチマークデータセット上で行われ、提案手法は分類 Macro-F1 を 2–35% 向上させつつ、正確なテキストトークンと画像パッチを根拠として抽出することを示しています。人間の評価も、提案手法が人道的カテゴリの識別に役立つより良い画像根拠パッチを12%取得できるとする主張を裏付けています。私たちの手法は、新規で見ていないデータセットにもゼロショットモードで適応し、80% の精度を達成します。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

ソーシャルメディア上の説明可能な人道分類のためのクロスモーダル根拠転移

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer