広告

TaxaAdapter: 生命の樹(Tree of Life)をまたぐきめ細かな画像生成において、ビジョン分類モデルが鍵となる

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生物学的「生命の樹(Tree of Life)」上の種にまたがる、きめ細かなテキスト対画像生成のための軽量手法であるTaxaAdapterを提案する。具体的には、(BioCLIPなどの)Vision Taxonomy Model(VTM)の埋め込みを、凍結した拡散型テキスト対画像モデルに注入する。
  • TaxaAdapterは、強力なベースラインと比べて、種レベルの形態の忠実度および種同定精度を改善しつつ、ポーズ、スタイル、背景といった属性に対する柔軟なテキスト制御を維持できると報告されている。
  • 著者らは、生成画像と実画像からの形質レベルの記述を、より解釈可能な形態整合性の指標へ変換する、マルチモーダルなLLMベースの評価メトリクスを提案する。
  • 実験では、限られた学習画像による少数ショットの種合成や、学習時に見ていない種の生成などを含む、強い汎化性能が主張されている。
  • 全体として本研究は、VTMが、大規模な生物多様性スケール(10M+種)における、スケーラブルで細粒度な種の生成に不可欠であると論じている。

Abstract

「生命の樹(Tree of Life)」全体にわたって画像を正確に生成することは困難です。地球上には10,000万種以上の異なる種があり、その多くは微妙な視覚的特徴だけで区別されます。テキストから画像への合成において目覚ましい進歩があったにもかかわらず、既存のモデルは、出力が写真のように見える場合でさえ、種の同一性を定義する細かな視覚的手がかりを捉えきれていないことが多いです。そこで本研究では、BioCLIP のような Vision Taxonomy Models(VTMs)を用いて細粒度の種生成を導く、シンプルで軽量な手法である TaxaAdapter を提案します。本手法は、凍結したテキストから画像への拡散モデルに VTM 埋め込みを注入し、ポーズ、スタイル、背景といった属性に関する柔軟なテキスト制御を維持しつつ、種レベルの忠実度を向上させます。大規模な実験により、TaxaAdapter は強力なベースラインに比べて、形態の忠実度および種同一性の精度を一貫して改善することが示されました。さらに、よりクリーンなアーキテクチャと訓練手順を備えています。これらの改善をより良く評価するために、生成画像と実画像から得られた形質レベルの記述を要約する、マルチモーダルの Large Language Model ベースの指標も新たに導入します。これにより、形態的一貫性をより解釈しやすい形で測定できます。加えて、TaxaAdapter は優れた汎化能力を示し、学習画像が数枚しかない few-shot の種や、学習中に見たことのない種といった難しい設定でも種の合成が可能です。全体として、本結果は、VTMs がスケーラブルで細粒度な種生成における重要な構成要素であることを強調しています。

広告