要旨: 正確な食事評価は精密栄養にとって重要ですが、ほとんどの画像ベース手法は消費前の1枚の画像に依存しており、食事レベルの大まかな推定しか提供しません。これらのアプローチでは、実際に何が摂取されたのかを特定できず、深度センシング、複数視点の画像、あるいは明示的なセグメンテーションといった制約のある入力をしばしば必要とします。本論文では、食事の前後の画像ペアを用いた、食材アイテム単位の栄養分析のためのシンプルな視覚言語フレームワークを提案します。硬直したセグメンテーションマスクに依存する代わりに、当社の手法は自然言語プロンプトを活用して特定の食材アイテムを局所化し、単一のRGB画像からその重量を直接推定します。さらに、2段階の学習戦略を用いて、画像ペア間の重量差を予測することで食事の摂取量を推定します。当社の手法を3つの公開データセットで評価し、既存手法に対して一貫した改善を示し、食事の前後画像解析のための強力なベースラインを確立します。
DietDelta:ビフォー・アフター画像による食事評価のためのビジョン・言語アプローチ
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 3つの公開データセットでの実験により、既存手法に対して一貫した改善が示され、DietDeltaがビフォー・アフターの食事画像解析における強力なベースラインであることが位置づけられています。



