Abstract
顔画像からの人の年齢推定は、バイオメトリクス、ヘルスケア、人とコンピュータのインタラクションにおいて大きな応用を持つ、挑戦的なコンピュータビジョンタスクである。従来の深層学習アプローチでは、膨大なラベル付きデータセットとドメイン固有の学習が必要となる一方で、近年の大規模ビジョン言語モデル(LVLMs)の進歩により、ゼロショット年齢推定の可能性が示されている。本研究は、従来はドメイン固有の畳み込みネットワークや教師あり学習によって支配されてきた顔の年齢推定に関して、最先端の大規模ビジョン言語モデル(LVLMs)を対象とした包括的なゼロショット評価を提示する。微調整やタスク固有の適応を一切行わずに、GPT-4o、Claude 3.5 Sonnet、LLaMA 3.2 Vision の性能を、2つのベンチマークデータセット(UTKFace と FG-NET)で評価する。MAE、MSE、RMSE、MAPE、MBE、R^2、CCC、さらに 25-year accuracy を含む8つの評価指標を用いて、汎用的な LVLM がゼロショット設定において競争力のある性能を提供し得ることを示す。これらの結果は、バイオメトリクスに基づく年齢推定を正確に行うための LVLM の創発的能力を浮き彫りにし、本モデル群を現実世界の応用に向けた有望なツールとして位置づける。さらに、画像品質および人口統計的サブグループに関連する性能の不均衡を指摘し、公平性を考慮したマルチモーダル推論の必要性を強調する。本研究は、再現可能なベンチマークを導入し、LVLM を法科学、ヘルスケアのモニタリング、人とコンピュータのインタラクションといった現実世界の応用に向けた有望なツールとして位置づける。このベンチマークは、微調整を行わない厳密なゼロショット推論に焦点を当てており、プロンプトへの感度、解釈可能性、計算コスト、人口統計的公平性に関する残された課題を示している。