広告

VLAgeBench:ゼロショットの人間の年齢推定のための大規模視覚言語モデルのベンチマーク

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 研究は、大規模視覚言語モデル(GPT-4o、Claude 3.5 Sonnet、LLaMA 3.2 Vision)を対象に、顔画像からの年齢推定を“ゼロショット”で評価し、UTKFaceとFG-NETの2ベンチマークで微調整なしの性能を検証した。
  • MAE/MSE/RMSE/MAPE/MBE/R²/CCC/±5年精度など8つの指標を用いて、汎用LVLMが従来のドメイン特化学習に対して競争力のある結果を出し得ることを示した。
  • 画像品質や人口統計サブグループに起因する性能差が観察され、年齢推定においても公平性を意識したマルチモーダル推論の必要性を指摘した。
  • prompt感度、解釈可能性、計算コスト、人口統計の公平性といった未解決課題を残しつつ、再現可能なベンチマークとして現場応用(法科学・ヘルスケア監視・HCI)に向けた足場を提供している。

Abstract

顔画像からの人の年齢推定は、バイオメトリクス、ヘルスケア、人とコンピュータのインタラクションにおいて大きな応用を持つ、挑戦的なコンピュータビジョンタスクである。従来の深層学習アプローチでは、膨大なラベル付きデータセットとドメイン固有の学習が必要となる一方で、近年の大規模ビジョン言語モデル(LVLMs)の進歩により、ゼロショット年齢推定の可能性が示されている。本研究は、従来はドメイン固有の畳み込みネットワークや教師あり学習によって支配されてきた顔の年齢推定に関して、最先端の大規模ビジョン言語モデル(LVLMs)を対象とした包括的なゼロショット評価を提示する。微調整やタスク固有の適応を一切行わずに、GPT-4o、Claude 3.5 Sonnet、LLaMA 3.2 Vision の性能を、2つのベンチマークデータセット(UTKFace と FG-NET)で評価する。MAE、MSE、RMSE、MAPE、MBE、R^2、CCC、さらに 25-year accuracy を含む8つの評価指標を用いて、汎用的な LVLM がゼロショット設定において競争力のある性能を提供し得ることを示す。これらの結果は、バイオメトリクスに基づく年齢推定を正確に行うための LVLM の創発的能力を浮き彫りにし、本モデル群を現実世界の応用に向けた有望なツールとして位置づける。さらに、画像品質および人口統計的サブグループに関連する性能の不均衡を指摘し、公平性を考慮したマルチモーダル推論の必要性を強調する。本研究は、再現可能なベンチマークを導入し、LVLM を法科学、ヘルスケアのモニタリング、人とコンピュータのインタラクションといった現実世界の応用に向けた有望なツールとして位置づける。このベンチマークは、微調整を行わない厳密なゼロショット推論に焦点を当てており、プロンプトへの感度、解釈可能性、計算コスト、人口統計的公平性に関する残された課題を示している。

広告