BioVITA: 視覚・テキスト・音響を整列するための生物学データセット、モデル、およびベンチマーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、生物種理解のために視覚・テキスト・音響データを整列させる新しいマルチモーダル枠組みであるBioVITAを提案する。
生態学的形質ラベルで注釈された14,133種にわたって、音声クリップ1.3M件と画像2.3M件からなる大規模な学習データセットを構築する。
BioVITAは、音声表現を視覚表現およびテキスト表現の両方に整列させるための2段階の学習アプローチによってBioCLIP2を拡張する。
さらに、画像・音声・テキスト間のあらゆる方向のクロスモーダル検索をサポートするベンチマークを公開し、Family/Genus/Speciesという分類学的レベルで評価する。
実験結果は、本手法が種レベルの意味論を捉える共通表現空間を学習できること、そしてマルチモーダルな生物多様性理解において分類体系を超えることを示している。

要旨: マルチモーダルデータから動物の種を理解することは、コンピュータビジョンと生態学の交差領域における新たな課題である。BioCLIPのような近年の生物学モデルは、種の同定のために画像とテキストによる分類学的情報との間で強い対応関係を示してきたが、音声モダリティの統合は未解決の問題として残っている。私たちは、生物学的応用のための新しい視覚-テキスト-音声アラインメント（整合）フレームワークであるBioVITAを提案する。BioVITAは、(i) 学習データセット、(ii) 表現モデル、(iii) 取得（リトリーバル）ベンチマーク、の3つから構成される。まず、14,133種を34の生態学的特性ラベルで注釈付けした大規模な学習データセットを構築し、1,300万の音声クリップと230万の画像を含める。次に、BioCLIP2に基づいて、音声表現を視覚およびテキスト表現と効果的に整合させるための2段階の学習フレームワークを導入する。第三に、3つのモダリティ間で考えられるあらゆる方向の取得をカバーするクロスモーダル取得ベンチマークを開発する（すなわち、画像→音声、音声→テキスト、テキスト→画像、およびそれらの逆方向）。さらに、分類学的な3つのレベルとしてFamily（科）、Genus（属）、Species（種）を扱う。広範な実験により、私たちのモデルが、分類学を超えて種レベルの意味論を捉える統一された表現空間を学習できることが示され、マルチモーダルな生物多様性理解を前進させる。このプロジェクトページは以下で利用可能: https://dahlian00.github.io/BioVITA_Page/

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

BioVITA: 視覚・テキスト・音響を整列するための生物学データセット、モデル、およびベンチマーク

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer