TaxaAdapter: 生命の樹(Tree of Life)をまたぐきめ細かな画像生成において、ビジョン分類モデルが鍵となる
arXiv cs.CV / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生物学的「生命の樹(Tree of Life)」上の種にまたがる、きめ細かなテキスト対画像生成のための軽量手法であるTaxaAdapterを提案する。具体的には、(BioCLIPなどの)Vision Taxonomy Model(VTM)の埋め込みを、凍結した拡散型テキスト対画像モデルに注入する。
- TaxaAdapterは、強力なベースラインと比べて、種レベルの形態の忠実度および種同定精度を改善しつつ、ポーズ、スタイル、背景といった属性に対する柔軟なテキスト制御を維持できると報告されている。
- 著者らは、生成画像と実画像からの形質レベルの記述を、より解釈可能な形態整合性の指標へ変換する、マルチモーダルなLLMベースの評価メトリクスを提案する。
- 実験では、限られた学習画像による少数ショットの種合成や、学習時に見ていない種の生成などを含む、強い汎化性能が主張されている。
- 全体として本研究は、VTMが、大規模な生物多様性スケール(10M+種)における、スケーラブルで細粒度な種の生成に不可欠であると論じている。
