オムニモーダル言語モデルにおける人口統計学的および言語バイアスの評価

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、テキスト、画像、音声、動画を統合して処理するオムニモーダル言語モデルにおける人口統計学的および言語のバイアスを評価し、人口統計グループと言語間での性能差に焦点を当てる。
  • 4つのオムニモーダルモデルを、人口統計属性の推定、アイデンティティ検証、活動認識、多言語音声文字起こし、言語識別といったタスクで検証する。
  • 結果は、画像および動画の理解タスクでは人口統計間の格差が相対的に小さい一方で、音声の理解では精度が大幅に低く、顕著なバイアスがあることを示す。
  • 本研究では、年齢、性別、肌の色、言語にまたがって音声タスクにおいて大きなバイアスが見られ、狭いカテゴリに予測が収束(collapse)するようなケースも含まれる。
  • 著者らは、オムニモーダルモデルが現実のアプリケーションでますます導入されていることを踏まえ、公平性の評価は当該モデルが対応するすべてのモダリティを対象にする必要があると主張する。

Abstract

本論文は、テキスト・画像・音声・動画を単一の枠組みで処理するオムニモーダル言語モデルにおける、人口統計的および言語的バイアスを包括的に評価したものを提供する。これらのモデルは広く導入されているにもかかわらず、異なる人口統計グループやモダリティにわたる性能は十分に研究されていない。4つのオムニモーダルモデルを、人口統計属性推定、アイデンティティ検証、活動認識、多言語音声の文字起こし、言語識別を含むタスクで評価する。精度の差は、年齢、性別、肌の色、言語、出身国において測定される。結果は、画像および動画の理解タスクでは、一般に人口統計上の隔たりが小さいほど性能が良好であることを示している。一方で、音声理解タスクでは、著しく低い性能と実質的なバイアスが見られる。これには、年齢層、性別、言語にまたがる大きな精度差、および限られたカテゴリへ向かって頻繁に予測が崩壊することが含まれる。これらの知見は、オムニモーダル言語モデルが現実世界のアプリケーションでますます使用されるようになっていることを踏まえ、支援されるすべてのモダリティにわたって公平性を評価する重要性を強調している。

オムニモーダル言語モデルにおける人口統計学的および言語バイアスの評価 | AI Navigate