Chitrakshara:インドの言語のための大規模多言語マルチモーダルデータセット

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、英語中心の学習データではなく、インドの言語に対するビジョン・ランゲージ・モデル(VLM)のカバレッジ向上を目的とした、新しい大規模多言語マルチモーダルデータセット「Chitrakshara」を紹介する。
  • データセットの2つのリリースとして、Chitrakshara-IL(193M枚の画像、30Bテキストトークン、50Mの多言語ドキュメント)と、Chitrakshara-Cap(44Mの画像-テキストペア、733Mトークン)を提示する。
  • データセットはCommon Crawlから取得した11のインドの言語を対象としており、著者らはキュレーション、フィルタリング、処理といった詳細なデータ収集パイプラインについて述べている。
  • インド系言語にわたるデータセットの代表性と多様性を評価するために、品質および多様性の分析が含まれており、文化的により包括的なVLMを目指す取り組みを支える。

要旨: マルチモーダル研究は主として単一画像の推論に焦点を当てており、多画像シナリオの検討は限られていました。近年のモデルは、大規模なプリトレーニングをインターリーブされた画像-テキスト・データセットに適用することで、多画像理解の向上を目指してきました。しかし、ほとんどのビジョン・言語モデル(VLM)は主に英語データセットで学習されているため、インド諸言語に対する不十分な表現となっています。このギャップに対処するために、Common Crawl から取得した11のインド諸言語を対象とする Chitrakshara データセット・シリーズを導入します。これには、(1) Chitrakshara-IL(1億9300万画像、300億テキストトークン、5000万の多言語ドキュメントを含む、大規模インターリーブのプリトレーニング・データセット)と、(2) Chitrakshara-Cap(7億3300万トークンを含む、4400万の画像-テキストペア)があります。本論文では、キュレーション、フィルタリング、処理手法を含むデータ収集パイプラインを詳述します。さらに、インド系言語にまたがるデータセットの代表性と、より文化的に包摂的なVLMを開発する可能性を評価するための、包括的な品質および多様性の分析も提示します。