概要: 動物の行動における社会的優位性を理解することは、神経科学および行動研究にとって重要である。本研究では、マルチモーダル大規模言語モデル(MLLMs)が、マウスの生の行動ビデオを解析し、その優位性の階層を予測できる可能性を探る。新たなベンチマークであるMTT-Benchを提案する。これは、マウス・チューブ・テスト解析のための、2匹のマウスの相互作用に関するアノテーション付き動画から構成される。既存のMLLMアーキテクチャを基に、これらのモデルを微調整し、テスト時に明示的なラベルを使わずに、未見の行動シーケンスに対してゼロショット推論を行えるようにする。提案手法は有望な結果を示しており、チューブテストの順位付けとの高い一致を確認した。本研究は、領域特化型のモデルを設計する必要なく、エソロジー(動物行動学)および社会行動解析に基盤モデルを適用する新たな方向性を切り開くものである。
MTT-Bench:マルチモーダル・ラージ言語モデルでマウスの社会的優位性を予測する
arXiv cs.CV / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、マルチモーダル・ラージ言語モデル(MLLM)が行動動画の生データからマウスの社会的優位性を推定できるかを検証します。
- MTT-Benchとして、Mouse Tube Test(チューブテスト)解析用に、マウス同士のペア行動を収録した注釈付き動画ベンチマークを新たに提示します。
- 著者らは既存のMLLMアーキテクチャを微調整し、テスト時に優位性ラベルを明示的に用いずに、未見の行動シーケンスに対してゼロショットで優位性階層を予測できるようにしています。
- モデルの予測が従来のチューブテスト順位と高い一致を示すとされており、未知の行動エピソードへの一般化可能性が示唆されます。
- 本研究は、基盤モデルを用いたエソロジー(行動学)や社会行動解析の新しい方向性を提案し、ドメイン特化のモデル設計の必要性を減らせる可能性を示します。




