SIMMER:MLLMベース埋め込みによるクロスモーダル食品画像〜レシピ検索

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SIMMERは、食品画像とレシピ文のクロスモーダル検索を行うために、デュアルエンコーダ方式に比べてアライメントを簡素化する単一の統合マルチモーダル埋め込みモデルを提案します。
  • 本手法ではVLM2Vecに代表されるMLLMベースの埋め込み枠組みを活用し、レシピの構造(タイトル、材料、調理手順)に合わせたプロンプトテンプレートにより効果的な埋め込み生成を実現します。
  • 完全なレシピと部分的なレシピの両方で学習する「コンポーネント対応のデータ拡張」を導入し、不足した入力があっても頑健性を高めます。
  • Recipe1Mでの実験では最先端(SOTA)の性能が示され、画像→レシピ R@1 が1kで81.8%から87.5%へ、10kで56.5%から65.5%へと前手法を大きく上回りました。

Abstract

食品画像とレシピテキスト間のクロスモーダル検索は、栄養管理、食事ログの記録、調理支援などへの応用を持つ重要な課題である。既存手法の多くは、画像とテキストそれぞれに別個のエンコーダを持つ双方向エンコーダ(dual-encoder)アーキテクチャに主に依存しており、モダリティ間の意味的ギャップを埋めるために、複雑なアラインメント戦略や課題固有のネットワーク設計を必要とする。本研究では、SIMMER(料理レシピのための単一統合マルチモーダルモデル;Single Integrated Multimodal Model for Embedding Recipes)を提案する。これは、この課題に対して、マルチモーダル大規模言語モデル(MLLM)ベースの埋め込みモデル、具体的にはVLM2Vecを適用し、従来の双方向エンコーダの考え方を置き換えて、食品画像とレシピテキストの両方を処理する単一の統合エンコーダを用いる。さらに、レシピが持つ構造(題名、材料、調理手順)に合わせてプロンプトテンプレートを設計し、MLLMによる効果的な埋め込み生成を可能にする。加えて、完全なレシピと部分的なレシピの両方でモデルを訓練する、コンポーネントを意識したデータ拡張戦略を導入し、不完全な入力に対する頑健性を向上させる。Recipe1Mデータセットでの実験により、SIMMERは1k評価設定および10k評価設定の両方において最先端の性能を達成し、これまでのすべての手法を大幅に上回ることが示される。特に、私たちの最良モデルは、前の最良手法と比較して、1kの画像対レシピR@1を81.8\%から87.5\%へ、また10kの画像対レシピR@1を56.5\%から65.5\%へと改善している。