MUNIChus: 多言語ニュース画像キャプションベンチマーク
arXiv cs.CL / 2026/3/12
📰 ニュースModels & Research
要点
- MUNIChusは、シンハラ語やウルドゥー語を含む9言語を対象とする、ニュース画像キャプションの初の多言語ベンチマークとして紹介されます。
- このデータセットはこの分野における多言語リソースの不足を解消し、クロスリンガル評価を可能にします。
- このベンチマークは最先端のニューラルニュース画像キャプションモデルを複数評価し、多言語ニュース画像キャプションが依然として難しいことを確認します。
- 著者らは20を超えるモデルのベンチマーク結果とともにMUNIChusを公開し、さらなる研究とベンチマーク作業を促進します。
- このリリースは、多言語ニュース画像キャプションの研究開発と評価を進展させる新たな道を開きます。
要旨: ニュース画像キャプションの目的は、ニュース記事の内容と対応する画像を組み合わせてキャプションを生成し、文脈と視覚要素との関連を強調することです。ニュース画像キャプション研究の大半は英語に焦点を当てており、主に他言語のデータセットが不足しているためです。この制限を解決するため、シンハラ語やウルドゥー語などのいくつかの低資源言語を含む9言語から成る、初の多言語ニュース画像キャプションベンチマーク、MUNIChusを作成しました。MUNIChus上で複数の最先端ニューラルニュース画像キャプションモデルを評価し、ニュース画像キャプションが依然として難しいことを見出しました。また、すでに20を超えるモデルがベンチマークされて公開されています。MUNIChusは、多言語ニュース画像キャプションモデルの開発と評価をさらに進展させる新たな道を開きます。