創業者効果がオープンLLMファミリーにおける多モーダル性の進化ダイナミクスを形作る

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、Hugging Face ModelBiomeの系統(ラインエイジ)とメタデータ(1.8M件超のモデル登録)を用い、オープンLLMファミリーの中で多モーダル(視覚-言語)能力が時間とともにどのように発現するかを調べる。
  • 多モーダルのクロスモーダルな取り組みは、主要なオープンLLMファミリー内で一般化する前から広いエコシステムで広く存在するが、2023年までは稀で、その後も2024年の大半まではまれな状態が続き、2024〜2025年にかけて急速に増加する。
  • ファミリー間では、視覚-言語モデル(VLM)系のバリアントは、最初のテキスト生成のリリースから通常数か月遅れて登場する。観測された遅延は、Gemmaで約1か月程度から、複数のファミリーで1年以上、さらにGLMでは約26か月まで及ぶ。
  • 系統分析では、テキスト生成の親からVLMの子孫への転移は弱いことがわかる(テキスト親からの微調整エッジのうちVLMにつながる割合は0.218%のみ)。一方で、多モーダルの拡大の大部分は既存のVLM系統の中で起きており(VLMの子エッジの94.5%がVLMの親に由来)、その傾向が強い。
  • 多くのVLMリリースは、記録上の親を持たない「新たなルーツ」として現れる(約60%)。さらに、創業者(founder)の集中パターンは、段階的な採用(punctuated adoption)を示唆する。すなわち、稀な創業者イベントが多モーダル性を種としてまき、続いて同一系統内で急速な増幅と多様化が進む。

要旨: 大規模言語モデル(LLM)ファミリーは急速に進歩しているが、オープンなファミリー内でマルチモーダル能力がどれほどの速さで出現し、伝播していくのかは依然として不明である。Hugging Faceのモデルメタデータおよび記録された系譜(lineage)フィールドからなるModelBiome AIエコシステムデータセット(>1.8×10^6件のモデルエントリ)を用いて、マルチモーダル性を時系列および記録された親(parent)から子(child)への関係に沿って定量化する。より広いエコシステムの中では、クロスモーダル課題は主要なオープンLLMファミリーで一般化するよりもはるか前から広く存在する。これらのファミリー内では、マルチモーダル性は2023年までおよび大半の2024年を通じてまれであり、その後2024-2025年にかけて急激に増加し、画像-テキストのビジョン言語タスクによって支配される。主要なファミリー全体では、最初のビジョン言語モデル(VLM)バリアントは、最初のテキスト生成リリースの数か月後に現れるのが典型的であり、ラグは約1か月(Gemma)から複数のファミリーで1年以上、さらにGLMでは約26か月である。系譜に条件付けされた移行(transition)率は弱いクロス型転移を示す。すなわち、テキスト生成の親からの微調整エッジのうち、VLMの子孫を生むのはわずか0.218%である。代わりに、マルチモーダル性の拡大は主として既存のVLM系統の中で起こる。VLMの子に対する微調整エッジの94.5%はVLMの親に由来し、テキスト生成の親に由来するのは4.7%である。モデルレベルでは、ほとんどのVLMリリースは記録された親を伴わない新しいルーツとして現れる(約60%)。残りは主としてVLM由来である。創始者の集中(founder concentration)分析は、系統内での急速な増幅の後に多様化が続くことを示唆する。これらの結果を総合すると、マルチモーダル性はオープンLLMファミリーへ、稀な創始者イベントを通じて入り、その後は子孫系統の中で急速に拡大することが分かる。このことは、マルチモーダル能力に対して転移が制限されるスケーリング挙動を引き起こす可能性がある、断続的な採用(adoption)ダイナミクスをもたらす。

創業者効果がオープンLLMファミリーにおける多モーダル性の進化ダイナミクスを形作る | AI Navigate