OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion
arXiv cs.CV / 4/15/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- OmniFood8Kは、中国料理のカバー不足や深度センサー前提といった課題に対応するため、8,036食分の詳細栄養注釈とマルチビュー画像を備えたマルチモーダル食品データセットを提供する研究です。
- 単一RGB画像から栄養推定を行うために、まずRGBから深度マップを予測し、SSRA(Scale-Shift Residual Adapter)で大域スケール整合と局所構造維持を強化します。
- RGB特徴と深度特徴を周波数領域で階層的に整合・統合するFAFM(Frequency-Aligned Fusion Module)を導入し、予測精度の向上を狙います。
- 重要な食材領域を動的なチャネル選択で強調するMPH(Mask-based Prediction Head)を用い、栄養推定をより正確にする設計になっています。
- さらに、栄養ラベルを正確に保ったまま組成の変動を導入する合成データセットNutritionSynth-115Kも構築し、多データセットで既存手法に対する優位性を報告しています。
Related Articles

Black Hat Asia
AI Business
Vibe Coding Is Changing How We Build Software. ERP Teams Should Pay Attention
Dev.to
I scanned every major vibe coding tool for security. None scored above 90.
Dev.to
I Finally Checked What My AI Coding Tools Actually Cost. The Number Made No Sense.
Dev.to
Is it actually possible to build a model-agnostic persistent text layer that keeps AI behavior stable?
Reddit r/artificial