SIMMER：MLLMベース埋め込みによるクロスモーダル食品画像〜レシピ検索

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

SIMMERは、食品画像とレシピ文のクロスモーダル検索を行うために、デュアルエンコーダ方式に比べてアライメントを簡素化する単一の統合マルチモーダル埋め込みモデルを提案します。
本手法ではVLM2Vecに代表されるMLLMベースの埋め込み枠組みを活用し、レシピの構造（タイトル、材料、調理手順）に合わせたプロンプトテンプレートにより効果的な埋め込み生成を実現します。
完全なレシピと部分的なレシピの両方で学習する「コンポーネント対応のデータ拡張」を導入し、不足した入力があっても頑健性を高めます。
Recipe1Mでの実験では最先端（SOTA）の性能が示され、画像→レシピ R@1 が1kで81.8%から87.5%へ、10kで56.5%から65.5%へと前手法を大きく上回りました。

Abstract

食品画像とレシピテキスト間のクロスモーダル検索は、栄養管理、食事ログの記録、調理支援などへの応用を持つ重要な課題である。既存手法の多くは、画像とテキストそれぞれに別個のエンコーダを持つ双方向エンコーダ（dual-encoder）アーキテクチャに主に依存しており、モダリティ間の意味的ギャップを埋めるために、複雑なアラインメント戦略や課題固有のネットワーク設計を必要とする。本研究では、SIMMER（料理レシピのための単一統合マルチモーダルモデル；Single Integrated Multimodal Model for Embedding Recipes）を提案する。これは、この課題に対して、マルチモーダル大規模言語モデル（MLLM）ベースの埋め込みモデル、具体的にはVLM2Vecを適用し、従来の双方向エンコーダの考え方を置き換えて、食品画像とレシピテキストの両方を処理する単一の統合エンコーダを用いる。さらに、レシピが持つ構造（題名、材料、調理手順）に合わせてプロンプトテンプレートを設計し、MLLMによる効果的な埋め込み生成を可能にする。加えて、完全なレシピと部分的なレシピの両方でモデルを訓練する、コンポーネントを意識したデータ拡張戦略を導入し、不完全な入力に対する頑健性を向上させる。Recipe1Mデータセットでの実験により、SIMMERは1k評価設定および10k評価設定の両方において最先端の性能を達成し、これまでのすべての手法を大幅に上回ることが示される。特に、私たちの最良モデルは、前の最良手法と比較して、1kの画像対レシピR@1を81.8\%から87.5\%へ、また10kの画像対レシピR@1を56.5\%から65.5\%へと改善している。

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

Dev.to

HNHN：ハイパーエッジ・ニューロンを備えたハイパーグラフ・ネットワーク

Dev.to

SIMMER：MLLMベース埋め込みによるクロスモーダル食品画像〜レシピ検索

要点

Abstract

関連記事

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

HNHN：ハイパーエッジ・ニューロンを備えたハイパーグラフ・ネットワーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer