FashionStylist:ファッション理解のための専門知識強化マルチモーダル・データセット

arXiv cs.CV / 2026/4/13

📰 ニュースModels & Research

要点

  • 論文では、視覚的知覚とスタイル/論理的根拠の推論を組み合わせた、包括的なファッション理解を目的とする専門家が注釈したマルチモーダル・ベンチマーク「FashionStylist」を提案する。
  • データセットは専用のファッション専門家向け注釈パイプラインにより構築され、アイテム単位と全コーディネート単位の両方で、プロとしての根拠に基づくラベルを含む。
  • FashionStylistは3つのタスク(アウトフィットからアイテムへのグラウンディング、アウトフィットの補完、アウトフィットの評価)をサポートし、レイヤリング/アクセサリーを含む複雑なアイテムの復元、単なる共起を超えた適合性を考慮した構成、そしてスタイル/季節/シーン/一貫性に対する専門家によるスコアリングを扱う。
  • 実験結果は、このベンチマークが統合的な学習/評価リソースとして機能し、MLLMベースのファッション・システムにおけるグラウンディング、補完、そしてアウトフィット単位のセマンティック評価の性能を向上させることを示している。

要旨: ファッション理解には、視覚的な知覚と、スタイル、場面、適合性、そして装いの根拠に関する専門家レベルの推論の両方が必要である。しかし、既存のファッションデータセットは断片的でタスク固有であることが多く、しばしばアイテム属性、装いの共起、あるいは弱いテキスト監督に焦点を当てている。そのため、装い全体を包括的に理解するための支援は限定的である。本論文では、装い全体および専門家レベルのファッション理解のための、専門家による注釈付きベンチマークである FashionStylist を導入する。専用のファッション専門家による注釈パイプラインを通じて構築された FashionStylist は、アイテムレベルと装いレベルの両方において、専門的に裏付けられた注釈を提供する。FashionStylist は、3つの代表的なタスク、すなわち「装いからアイテムへのグラウンディング」、「装いの補完」、および「装いの評価」を支援する。これらのタスクは、レイヤリングやアクセサリーを含む複雑な装いからの現実的なアイテム復元、共起の一致を超えた適合性を考慮した構成、そしてスタイル、季節、場面、ならびに全体的な一貫性に関する専門家レベルの評価をカバーする。実験結果は、FashionStylist が複数のファッションタスクのための統一ベンチマークとして機能するだけでなく、MLLMベースのファッションシステムにおいてグラウンディング、補完、そして装いレベルの意味的評価を改善するための効果的な学習資源としても有効であることを示している。