V-Nutri: エゴセントリックな調理動画からの料理単位（dish-level）栄養推定

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

料理完了後の単一画像に依存する既存の栄養推定は、油・ソース・混成成分などが調理後に視覚的に曖昧になるため限界があると指摘しています。
本論文は、エゴセントリック（手元視点）調理動画の情報を活用して、調理プロセスが料理全体（dish-level）のカロリーやマクロ推定に寄与し得るかを検証します。
HD-EPICデータセットを追加で手動注釈し、動画ベースの栄養推定に関する初のベンチマークを構築したとしています。
提案手法V-Nutriは、Nutrition5Kで事前学習した視覚バックボーンと、最終フレームに加えて調理プロセスの主要フレーム（keyframes）を統合する軽量フュージョンモジュールを組み合わせます。
さらにVideoMambaを用いたイベント検出（材料投入の瞬間を対象）を組み込み、プロセス・キーフレームが有効な場合がある一方で、バックボーン能力とイベント検出品質への依存が大きいことを示しています。

要旨: 視覚データからの食事の栄養推定は、食生活モニタリングや計算健康科学にとって重要な課題であるが、既存のアプローチの多くは、最終的に完成した料理の単一画像に大きく依存している。この設定には本質的な限界がある。すなわち、油、ソース、混合成分のように栄養学的に重要な多くの食材や変換は、調理後には見た目が曖昧になるため、正確なカロリーおよび栄養素（マクロ栄養素）の推定が難しくなる。本論文では、エゴセントリックな調理動画から得られる調理プロセス情報が、料理単位での栄養推定に寄与し得るかを調査する。まず、HD-EPICデータセットをさらに手作業で注釈付けし、動画ベースの栄養推定に関する最初のベンチマークを構築した。最も重要なのは、V-Nutriという段階的フレームワークを提案する点である。この枠組みは、Nutrition5Kで事前学習した視覚バックボーンと、エゴセントリック動画から抽出した調理プロセスのキーフレームと、最終料理フレームの特徴を集約する軽量な融合モジュールを組み合わせる。V-Nutriには、調理キーフレーム選択モジュールに加えて、食材追加の瞬間を対象とするVideoMambaベースのイベント検出モデルも含まれる。HD-EPICデータセットでの実験により、プロセスの手掛かりが補完的な栄養エビデンスを提供し、制御された条件下で栄養推定を改善できることが示された。さらに、プロセスのキーフレームによる利益は、バックボーンの表現能力とイベント検出品質に強く依存することがわかった。コードおよび注釈付きデータセットは https://github.com/K624-YCK/V-Nutri で公開している。