FairLLaVA：大規模視覚言語アシスタントのための公平性を意識したパラメータ効率の高い微調整

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

FairLLaVAは、画像とテキストを扱うマルチモーダルLLM（MLLM）がデモグラフィック集団ごとに不均一な性能を示し得るという公平性リスクに対処する、パラメータ効率の高い微調整手法を提案しています。
目標となる属性間の相互情報量を最小化することで、モデル表現をデモグラフィック非依存に正則化し、全体性能を損なわずに集団間の差を緩和する方針です。
FairLLaVAは低ランクアダプタによる軽量な「プラグイン」として既存アーキテクチャへ組み込み可能で、視覚指示追従の公平性改善を比較的コスト低く実現します。
大規模な胸部レントゲン所見生成と皮膚鏡VQAのベンチマークで、集団間格差の一貫した低減に加え、エクイティ尺度での臨床性能や自然言語生成品質の向上も確認したと報告しています。
コードがGitHubで公開され、医療画像など複数モダリティでの適用可能性を示しています。

Abstract

画像条件付き生成において強力である一方で、多モーダル大規模言語モデル（MLLMs）は、人口統計上のグループ間で性能が不均一になり得るため、公平性リスクがあることが示されています。安全性が極めて重要な臨床設定では、このような格差によって、診断に関する記述が不均等に生成され、AI支援による意思決定への信頼が損なわれる恐れがあります。公平性は、視覚のみモデルおよび言語のみモデルにおいて広範に研究されてきましたが、MLLMへの影響は依然として十分に調査されていないのが現状です。これらのバイアスに対処するために、私たちはFairLLaVAを提案します。これは、全体の性能を損なうことなく、視覚インストラクション・チューニングにおけるグループ間の格差を緩和する、パラメータ効率の高い微調整手法です。目標となる属性間の相互情報量を最小化することで、FairLLaVAはモデルの表現を人口統計的に不変となるよう正則化します。本手法は軽量なプラグインとして組み込むことができ、低ランク・アダプタの微調整によって効率性を維持し、さらに、公平な視覚インストラクション追従のためのアーキテクチャに依存しないアプローチを提供します。大規模な胸部レントゲン画像レポート生成およびデモスコピーの視覚質問応答ベンチマークに関する大規模実験の結果、FairLLaVAは、複数の医療画像モダリティにわたって、衡平性にスケールした臨床性能と自然言語生成の品質の両方を向上させつつ、グループ間の格差を一貫して低減することが示されました。コードは https://github.com/bhosalems/FairLLaVA で入手できます。