Chitrakshara：インドの言語のための大規模多言語マルチモーダルデータセット

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、英語中心の学習データではなく、インドの言語に対するビジョン・ランゲージ・モデル（VLM）のカバレッジ向上を目的とした、新しい大規模多言語マルチモーダルデータセット「Chitrakshara」を紹介する。
データセットの2つのリリースとして、Chitrakshara-IL（193M枚の画像、30Bテキストトークン、50Mの多言語ドキュメント）と、Chitrakshara-Cap（44Mの画像-テキストペア、733Mトークン）を提示する。
データセットはCommon Crawlから取得した11のインドの言語を対象としており、著者らはキュレーション、フィルタリング、処理といった詳細なデータ収集パイプラインについて述べている。
インド系言語にわたるデータセットの代表性と多様性を評価するために、品質および多様性の分析が含まれており、文化的により包括的なVLMを目指す取り組みを支える。

要旨: マルチモーダル研究は主として単一画像の推論に焦点を当てており、多画像シナリオの検討は限られていました。近年のモデルは、大規模なプリトレーニングをインターリーブされた画像-テキスト・データセットに適用することで、多画像理解の向上を目指してきました。しかし、ほとんどのビジョン・言語モデル（VLM）は主に英語データセットで学習されているため、インド諸言語に対する不十分な表現となっています。このギャップに対処するために、Common Crawl から取得した11のインド諸言語を対象とする Chitrakshara データセット・シリーズを導入します。これには、(1) Chitrakshara-IL（1億9300万画像、300億テキストトークン、5000万の多言語ドキュメントを含む、大規模インターリーブのプリトレーニング・データセット）と、(2) Chitrakshara-Cap（7億3300万トークンを含む、4400万の画像-テキストペア）があります。本論文では、キュレーション、フィルタリング、処理手法を含むデータ収集パイプラインを詳述します。さらに、インド系言語にまたがるデータセットの代表性と、より文化的に包摂的なVLMを開発する可能性を評価するための、包括的な品質および多様性の分析も提示します。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

Chitrakshara：インドの言語のための大規模多言語マルチモーダルデータセット

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer