要旨: 近年、ウェルビーイング評価におけるマルチモーダル機械学習の統合は、メンタルヘルスのモニタリングにおいて変革的な可能性をもたらしてきました。しかし、視覚言語モデル(VLM)の急速な進歩により、臨床現場での導入が、透明性の欠如や潜在的なバイアスのために懸念を引き起こしています。先行研究では、公平性と説明可能なAI(XAI)の交差が検討されてきたものの、ウェルビーイング評価やうつ病予測のためのVLMへの適用は十分に調査されていません。本研究は、実験環境(AFAR-BSFT)と自然環境(E-DAIC)という2種類のデータセットにまたがってVLMの性能を調査し、診断の信頼性と人口統計学的な公平性に焦点を当てます。性能は環境およびアーキテクチャ間で大きくばらつきました。Phi3.5-VisionはE-DAICで80.4%の精度を達成した一方、Qwen2-VLは33.9%に苦戦しました。さらに、両モデルはいずれもAFAR-BSFTにおいてうつ病を過剰に予測する傾向を示しました。バイアスは両アーキテクチャに存在したものの、Qwen2-VLは性別における格差がより大きく、Phi-3.5-Visionは人種におけるバイアスがより強いことが分かりました。提案するXAI介入の枠組みでは、結果はまちまちでした;公平性を促す介入(fairness prompting)は、E-DAICにおいて精度を深刻に損なう代償と引き換えに、Qwen2-VLで完全な均等機会を達成しました。AFAR-BSFTでは、説明可能性に基づく介入が手続き的な一貫性を改善しましたが、結果の公平性は保証せず、場合によっては人種バイアスを増幅しました。これらの結果は、「手続き的な透明性」と「衡平なアウトカム」との間に持続的なギャップがあることを示しています。本研究ではこれらの知見を分析し、それらに対処するための具体的な提言を統合します。将来の公平性介入は、予測精度、人口統計学的パリティ、そしてドメイン横断の一般化を同時に最適化する必要があることを強調します。
FAIR_XAI:説明可能性によるウェルビーイング評価のためのマルチモーダル基盤モデルの公平性改善
arXiv cs.AI / 2026/4/28
📰 ニュースModels & Research
要点
- 本研究は、ウェルビーイングやうつ病の評価に用いられるマルチモーダルな視覚言語基盤モデル(VLM)について、診断の信頼性と人口統計学的な公平性に焦点を当て、実験室データと自然環境データの両方での性能を検証する。
- 結果として、環境やモデル構造によって性能が大きく変動することが示され、Phi3.5-VisionはE-DAICで80.4%の精度を達成した一方、Qwen2-VLは33.9%にとどまり、いずれのモデルもAFAR-BSFTではうつ病を過大に予測する傾向が見られた。
- バイアスの傾向はモデルごとに異なり、Qwen2-VLは性別の格差が大きい一方で、Phi-3.5-Visionは人種面でのバイアスが強いことが評価結果から示される。
- XAI(説明可能なAI)に基づく公平性介入は混在した効果を示し、公平性を促すプロンプトはE-DAICにおけるQwen2-VLでequal opportunityを完全に満たしたが、精度の大幅な低下を伴った。
- AFAR-BSFTでは説明可能性に基づく介入が手続きの一貫性を改善したものの、結果の公平性は保証されず、場合によっては人種バイアスが増幅されることもあった。著者らは、手続き上の透明性(説明可能性)と公平なアウトカムの間に継続的なギャップがあると結論づけている。

