InVitroVision：自然言語による胚発生の自動記述のためのマルチモーダルAIモデル

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、基盤となるマルチモーダル視覚言語モデル（PaliGemma-2）を微調整し、IVFのタイムラプス画像から胚の形態、細胞周期、発生段階を自然言語で記述する手法を示した。
公開データセットを用いて、研究者らは胚発生に関する画像とキャプションの組（1,000ペア）のみでInVitroVisionを学習し、従来の多くの手法が十分に活用してこなかったIVFのマルチモーダル性に焦点を当てた。
InVitroVisionは、商用モデル（ChatGPT 5.2）や他の基盤モデルよりも、総合指標で優れた結果を得たと報告されている。
学習データセットのサイズを大きくするほど性能が向上したため、初期の注釈が限られていてもデータ量に応じて汎化が改善することが示された。
著者らは、このアプローチが生成された説明を関連する論文やガイドラインの科学的根拠と結び付けることで、大規模言語モデルによる情報検索を支援し、IVFの複数の下流タスクへのfew-shot適応にもつながり得ると述べている。

要旨: IVFにおける人工知能（AI）の適用は、意思決定の一貫性と標準化の改善に有望であることを示していますが、多くの場合、注釈付きデータに依存し、IVFデータのマルチモーダルな性質を活用していません。私たちは、基盤のビジョン・言語モデルを微調整して、胚の形態と発生を自然言語で記述することを予測できるかどうかを検討しました。公開されている胚タイムラプス・データセットを用いて、マルチモーダル・ビジョン・言語モデルであるPaliGemma-2を、胚の形態、胚細胞周期、発生段階を記述するための、対応するキャプション付き1,000枚の画像のみによって微調整しました。結果として、微調整後のモデルであるInVitroVisionは、商用モデルのChatGPT 5.2および基盤モデルに対して、全体的な指標で上回り、学習データセットを大きくするほど性能が向上しました。本研究は、少ないデータでIVFタスクへ汎化できるように、基盤のビジョン・言語モデルが胚の形態と発生を自然言語で記述することを予測できる可能性を示しています。このアプローチにより、大規模言語モデルを用いて関連する論文やガイドラインから情報や科学的根拠を検索することが容易になる可能性があり、IVFにおける複数の下流タスクへの少数ショット適応にも示唆を与えます。