OmniFood8K: 階層的な周波数整合フュージョンによる単一画像からの栄養推定
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- OmniFood8Kは、中国料理のカバー不足や深度センサー前提といった課題に対応するため、8,036食分の詳細栄養注釈とマルチビュー画像を備えたマルチモーダル食品データセットを提供する研究です。
- 単一RGB画像から栄養推定を行うために、まずRGBから深度マップを予測し、SSRA(Scale-Shift Residual Adapter)で大域スケール整合と局所構造維持を強化します。
- RGB特徴と深度特徴を周波数領域で階層的に整合・統合するFAFM(Frequency-Aligned Fusion Module)を導入し、予測精度の向上を狙います。
- 重要な食材領域を動的なチャネル選択で強調するMPH(Mask-based Prediction Head)を用い、栄養推定をより正確にする設計になっています。
- さらに、栄養ラベルを正確に保ったまま組成の変動を導入する合成データセットNutritionSynth-115Kも構築し、多データセットで既存手法に対する優位性を報告しています。
