広告

M-MiniGPT4:翻訳データによる多言語VLLMアラインメント

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MiniGPT4アーキテクチャを基盤として、11言語にまたがって高いVLU性能を提供することを目的とした多言語ビジョン・言語LLM「M-MiniGPT4」を提案する。
  • 多言語能力を高めるために、母語の多言語学習データと翻訳データを組み合わせ、さらに並列テキストコーパスを用いた専用の多言語アラインメント段階を追加する。
  • 本モデルは多言語MMMUベンチマークで36%の精度を達成し、同一のパラメータ/重みクラスにおける先行の最新手法よりも優れた性能を報告している。
  • 著者らは、低リソースおよび多言語のビジョン・言語研究をさらに促進するため、モデル、コード、翻訳済みデータセットをオープンソースとして公開する。

広告