要旨: マルチモーダルデータから動物の種を理解することは、コンピュータビジョンと生態学の交差領域における新たな課題である。BioCLIPのような近年の生物学モデルは、種の同定のために画像とテキストによる分類学的情報との間で強い対応関係を示してきたが、音声モダリティの統合は未解決の問題として残っている。私たちは、生物学的応用のための新しい視覚-テキスト-音声アラインメント(整合)フレームワークであるBioVITAを提案する。BioVITAは、(i) 学習データセット、(ii) 表現モデル、(iii) 取得(リトリーバル)ベンチマーク、の3つから構成される。まず、14,133種を34の生態学的特性ラベルで注釈付けした大規模な学習データセットを構築し、1,300万の音声クリップと230万の画像を含める。次に、BioCLIP2に基づいて、音声表現を視覚およびテキスト表現と効果的に整合させるための2段階の学習フレームワークを導入する。第三に、3つのモダリティ間で考えられるあらゆる方向の取得をカバーするクロスモーダル取得ベンチマークを開発する(すなわち、画像→音声、音声→テキスト、テキスト→画像、およびそれらの逆方向) 。さらに、分類学的な3つのレベルとしてFamily(科)、Genus(属)、Species(種)を扱う。広範な実験により、私たちのモデルが、分類学を超えて種レベルの意味論を捉える統一された表現空間を学習できることが示され、マルチモーダルな生物多様性理解を前進させる。このプロジェクトページは以下で利用可能: https://dahlian00.github.io/BioVITA_Page/
BioVITA: 視覚・テキスト・音響を整列するための生物学データセット、モデル、およびベンチマーク
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、生物種理解のために視覚・テキスト・音響データを整列させる新しいマルチモーダル枠組みであるBioVITAを提案する。
- 生態学的形質ラベルで注釈された14,133種にわたって、音声クリップ1.3M件と画像2.3M件からなる大規模な学習データセットを構築する。
- BioVITAは、音声表現を視覚表現およびテキスト表現の両方に整列させるための2段階の学習アプローチによってBioCLIP2を拡張する。
- さらに、画像・音声・テキスト間のあらゆる方向のクロスモーダル検索をサポートするベンチマークを公開し、Family/Genus/Speciesという分類学的レベルで評価する。
- 実験結果は、本手法が種レベルの意味論を捉える共通表現空間を学習できること、そしてマルチモーダルな生物多様性理解において分類体系を超えることを示している。