重要なものにラベルを：モダリティのバランスと難度を考慮したマルチモーダル能動学習

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、訓練ラウンドを通じて変化するモダリティ価値と、時間とともに変動するインスタンス難度の両方を考慮した、マルチモーダル能動学習のための強化学習フレームワークであるRL-MBAを提案する。
サンプル選択をマルコフ決定過程として定式化し、モダリティの貢献度、不確実性、多様性に基づいて適応するポリシーを用いる。報酬は精度の改善とモダリティのバランスに結び付けられる。
RL-MBAのAdaptive Modality Contribution Balancing（AMCB）は、固定した重要度を仮定するのではなく、強化学習からのフィードバックによりモダリティの重み付けを動的に再調整する。
Evidential Fusion for Difficulty-Aware Policy Adjustment（EFDA）は、不確実性に基づく証拠（evidential）フュージョンによりサンプルの難度を推定し、本当に有益なサンプルを優先するために用いる。
Food101、KineticsSound、VGGSoundでの実験では、強力なベースラインに対して一貫した改善が示される。限られたラベル予算のもとで分類精度を向上させるだけでなく、モダリティの公平性も改善する。

Abstract

マルチモーダル学習は、画像、テキスト、音声などの異なるモダリティから補完的な情報を統合してモデルの性能を向上させますが、その成功はコストのかかる大量のラベル付きデータに依存しています。アクティブラーニング（AL）は、情報量の多いサンプルを選択的に注釈付けすることで、この課題を緩和します。マルチモーダルの設定では、多くの手法が暗黙的にモダリティの重要度はラウンド間で安定しており、選択ルールを融合（fusion）段階で固定したままにすると仮定しています。しかし、相対的なモダリティの価値やインスタンスの難しさは学習が進むにつれて変化するため、この仮定は、マルチモーダル学習の動的な性質に対して鈍感になってしまいます。この問題に対処するために、我々はモダリティのバランスと難度を考慮したマルチモーダル・アクティブラーニングのための強化学習フレームワークであるRL-MBAを提案します。RL-MBAはサンプル選択をマルコフ決定過程（Markov Decision Process）としてモデル化し、ポリシーがモダリティの寄与、不確実性、そして多様性に適応するようにします。そして、報酬は精度の向上とバランスを促します。この適応性を駆動する主要な2つの構成要素は次の通りです：（1）適応的モダリティ寄与バランシング（AMCB）。強化フィードバックを通じてモダリティ重みを動的に調整します。（2）難度考慮型ポリシー調整のためのエビデンシャル融合（EFDA）。不確実性に基づくエビデンシャル融合によってサンプルの難しさを推定し、情報量の多いサンプルを優先します。Food101、KineticsSound、VGGSoundでの実験により、RL-MBAが強力なベースラインを一貫して上回り、ラベル付け予算が限られた条件下でも分類精度とモダリティの公平性の両方が改善されることが示されます。

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

Dev.to

レッドライン・エコノミー

Dev.to

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

Dev.to

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

Dev.to

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

Dev.to

重要なものにラベルを：モダリティのバランスと難度を考慮したマルチモーダル能動学習

要点

Abstract

関連記事

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

レッドライン・エコノミー

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer