Xuanwu：一般的な汎用マルチモーダルモデルを、コンテンツ・エコシステム向けの産業グレード基盤モデルへ進化させる

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Xuanwu VL-2B の例を通じて、汎用マルチモーダルLLMを、敵対的な条件下でのモデレーションなど、コンテンツ・エコシステムのニーズに合わせた産業グレードの基盤モデルへと転換することを示している。
約2Bパラメータのコンパクトなアーキテクチャ（InternViT-300M + MLP + Qwen3 1.7B）を用い、細かな視覚認識、言語のセマンティックな整合、ならびにデプロイコストのバランスを取る設計となっている。
著者らは、データの反復とキュレーションの仕組み、および進行的な3段階の学習パイプライン（事前学習・中間学習・事後学習）を導入し、汎用能力を維持しつつビジネス特化を可能にしている。
オフライン評価では、マルチモーダルのベンチマーク性能が改善したことが報告されている（InternVL 3.5 2Bに対して67.90 vs 64.27）。また、強いモデレーション再現率も示されており、難易度の高い敵対的OCRポリシー違反テキストにおいても改善している（重み付き全体再現率82.82% vs Gemini-2.5-Proの76.72%）。
本研究は、限られたパラメータ予算であっても、Xuanwu VL-2B がビジネス整合、ロングテールノイズへの頑健性、汎用能力の保持、コストの間で現実的なトレードオフを達成できると主張している。

要旨: 近年、マルチモーダル大規模モデルは一般的なベンチマークにおいて継続的に性能向上を遂げています。しかし、現実世界のコンテンツモデレーションや敵対的な設定では、主流モデルは、細かな視覚認識の能力が限られていることと、長い尾（ロングテール）のノイズを十分にモデル化できていないことが原因で、一般化性能の低下や壊滅的忘却に悩まされています。本論文では、Xuanwu VL-2B を事例として、一般的なマルチモーダルモデルをコンテンツ・エコシステム向けの産業グレードの基盤モデルへ発展させる方法を提示します。モデルは、コンパクトな InternViT-300M + MLP + Qwen3 1.7B のアーキテクチャを採用し、約2Bパラメータの予算の範囲内で、細かな視覚認識と言語セマンティックの整合性、ならびにデプロイコストのバランスを取っています。ビジネスに特化した学習と、一般能力の保持との両立のために、データ反復とキュレーション（精選）のメカニズムを開発し、段階的な3段階のパイプライン（事前学習、中間学習、事後学習）を通じてモデルを訓練しました。アブレーション研究およびオフラインのビジネス評価の結果、Xuanwu VL-2B は 7 つの OpenCompass マルチモーダル指標において平均スコア 67.90（InternVL 3.5 2B は 64.27）を達成し、7 つの独立したビジネス・モデレーションタスクにおける平均リコールは 94.38% であり、さらに敵対的 OCR が難しいシナリオにおける、ポリシー違反テキストでの重み付き総合リコールは 82.82% を示し、Gemini-2.5-Pro（76.72%）を上回りました。これらの結果は、限られたパラメータ予算のもとで、Xuanwu VL-2B がビジネス整合性、視覚認識、一般能力の保持、ならびにデプロイコストの間で実用的なバランスを達成できることを示しています。