V-Nutri: Dish-Level Nutrition Estimation from Egocentric Cooking Videos
arXiv cs.CV / 4/15/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 料理完了後の単一画像に依存する既存の栄養推定は、油・ソース・混成成分などが調理後に視覚的に曖昧になるため限界があると指摘しています。
- 本論文は、エゴセントリック(手元視点)調理動画の情報を活用して、調理プロセスが料理全体(dish-level)のカロリーやマクロ推定に寄与し得るかを検証します。
- HD-EPICデータセットを追加で手動注釈し、動画ベースの栄養推定に関する初のベンチマークを構築したとしています。
- 提案手法V-Nutriは、Nutrition5Kで事前学習した視覚バックボーンと、最終フレームに加えて調理プロセスの主要フレーム(keyframes)を統合する軽量フュージョンモジュールを組み合わせます。
- さらにVideoMambaを用いたイベント検出(材料投入の瞬間を対象)を組み込み、プロセス・キーフレームが有効な場合がある一方で、バックボーン能力とイベント検出品質への依存が大きいことを示しています。
Related Articles
v0.20.0rc1
vLLM Releases

How to Learn Claude AI from Scratch (Step-by-Step Guide)
Dev.to

Biotech-led boom as 8 China firms flock to Hong Kong’s thriving stock market
SCMP Tech
I built my own event bus for a sustainability app — here's what I learned about agent automation using OpenClaw
Dev.to
LLMs Don't Fail — Execution Does: Why Agentic AI Needs a Control Layer
Dev.to