オムニモーダル言語モデルにおける人口統計学的および言語バイアスの評価
arXiv cs.CV / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、テキスト、画像、音声、動画を統合して処理するオムニモーダル言語モデルにおける人口統計学的および言語のバイアスを評価し、人口統計グループと言語間での性能差に焦点を当てる。
- 4つのオムニモーダルモデルを、人口統計属性の推定、アイデンティティ検証、活動認識、多言語音声文字起こし、言語識別といったタスクで検証する。
- 結果は、画像および動画の理解タスクでは人口統計間の格差が相対的に小さい一方で、音声の理解では精度が大幅に低く、顕著なバイアスがあることを示す。
- 本研究では、年齢、性別、肌の色、言語にまたがって音声タスクにおいて大きなバイアスが見られ、狭いカテゴリに予測が収束(collapse)するようなケースも含まれる。
- 著者らは、オムニモーダルモデルが現実のアプリケーションでますます導入されていることを踏まえ、公平性の評価は当該モデルが対応するすべてのモダリティを対象にする必要があると主張する。
