SIMMER:MLLMベース埋め込みによるクロスモーダル食品画像〜レシピ検索
arXiv cs.CL / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SIMMERは、食品画像とレシピ文のクロスモーダル検索を行うために、デュアルエンコーダ方式に比べてアライメントを簡素化する単一の統合マルチモーダル埋め込みモデルを提案します。
- 本手法ではVLM2Vecに代表されるMLLMベースの埋め込み枠組みを活用し、レシピの構造(タイトル、材料、調理手順)に合わせたプロンプトテンプレートにより効果的な埋め込み生成を実現します。
- 完全なレシピと部分的なレシピの両方で学習する「コンポーネント対応のデータ拡張」を導入し、不足した入力があっても頑健性を高めます。
- Recipe1Mでの実験では最先端(SOTA)の性能が示され、画像→レシピ R@1 が1kで81.8%から87.5%へ、10kで56.5%から65.5%へと前手法を大きく上回りました。
