FoodSense：画像から味・匂い・食感・音を予測するためのマルチセンソリー食データセットとベンチマーク

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、食の画像から味・匂い・食感・音を予測することを目的とした、人手によるマルチセンソリー・データセット「FoodSense」を提案し、認識タスクだけでなく推定に焦点を当てています。
FoodSenseは2,987種類の食品画像を対象に、66,842件の参加者×画像ペアを収録し、4つの感覚次元（味・匂い・食感・音）について1〜5の数値評価と自由記述の記述子を提供します。
さらに、画像に根ざした推論トレースを追加し、画像と感覚アノテーションに条件付ける形で大規模言語モデルが視覚的な正当化文を生成することで、予測と説明の両方を可能にしています。
著者らは、このアノテーションを用いて「FoodSense-VL」というビジョン言語ベンチマークモデルを学習し、食品画像から直接マルチセンソリー評価と根拠付きの説明を出力させます。
一般的な評価指標は、視覚からのマルチセンソリー体験の推定には不十分であると主張し、認知科学とマルチモーダルのインストラクション・チューニングをつなぐ試みだと位置づけています。