視覚言語モデルによるヒトの視覚エクスポソームの定量化

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、メンタルヘルスにおける視覚環境の影響を、粗い地理的代理指標や自己申告に頼らずに客観的に定量化できていない点を解決することを目的としている。
  • 参加者が日常で撮影した写真に対し、エコロジカル・モーメンタリー・アセスメントと視覚言語モデル(VLM)を組み合わせて、視覚体験の意味的な「豊かさ」を推定するアプローチを採用している。
  • 2,674人の参加者が生成した写真を用いると、VLMが算出した「緑の量(greenness)」が、その時々の感情(affect)と慢性的なストレスの双方を頑健に予測し、既存のベンチマークとも整合している。
  • さらに、7百万件超の科学論文を半自律的なLLM駆動パイプラインでマイニングし、メンタルヘルスと関連する環境特徴を約1,000個抽出する仕組みを開発している。
  • 実世界の画像に適用すると、抽出された文脈(context)指標のうち最大33%で、VLMの文脈評価が感情やストレスと有意な相関を示し、視覚エクスポソミクスのスケーラブルな可能性を裏付けている。

要旨: 視覚的環境は、メンタルヘルスを決定づける基本的要因であるにもかかわらず、これまで定量化されていませんでした。環境エクスポソームという概念は広く確立されている一方で、現在の手法は粗い地理空間の代理指標やバイアスのかかった自己報告に依存しており、日常生活における第一人称の視覚的文脈を捉えられていません。私たちは、このギャップを埋めるために、生態学的モーメンタリーアセスメントと視覚言語モデル(VLM)を結合し、人間の視覚体験の意味的な豊かさを定量化しました。2674人の参加者が生成した写真を対象に、VLMが導出した「緑度」の推定は、モーメンタリーな情動および慢性的なストレスを頑健に予測し、既存のベンチマークと整合していました。次に、7百万件以上の科学論文をマイニングして、メンタルヘルスと経験的に結びついた環境特徴をほぼ1000個抽出する、セミ自律型の大規模言語モデル(LLM)ベースのパイプラインを開発しました。実世界の画像に適用したところ、VLMが抽出した文脈評価の最大33パーセントが、情動およびストレスと有意に相関していました。これらの知見は、視覚エクスポソミクスのためのスケーラブルな客観的パラダイムを確立し、見える世界がメンタルヘルスとどのように関連しているのかを高スループットでデコードすることを可能にします。