LLMsを用いた画像説明のベンチマークやリーダーボードはありますか？

Reddit r/LocalLLaMA / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

LLMs または VLMs を使用した際の、一般的なマルチモーダルタスクではなく、画像キャプションの品質に焦点を当てたベンチマークやリーダーボードを探しています。
自然言語の画像説明を評価するベンチマークデータセット、リーダーボード、評価指標を見つけることを目指しています。
従来のキャプショニングモデルだけでなく、音声説明のユースケースにも特に関連する、新しいマルチモーダルLLMsに関連するベンチマークを求めています。
研究目的のため、コミュニティからの参考文献、論文、データセットの募集を呼びかけています。

皆さん、こんにちは、

LLMsやVLMsを用いた画像説明/画像キャプション品質に特化したベンチマークやリーダーボードを探しています。

見つけるベンチマークの大半は、一般的なマルチモーダル推論、VQA、OCR、あるいは広範な視覚と言語のパフォーマンスに関するものですが、私が本当に求めているのは、モデルが自然言語で画像を説明する能力をどれだけうまく評価できるかです。

理想的には、次のようなものを探しています：

私のユースケースは画像の音声説明を生成するモデルの評価ですので、有用で自然かつ正確なシーンの説明を反映するベンチマークに特に関心があります。

この件について良い参考文献、論文、リーダーボード、データセットをご存知の方はいらっしゃいますか？

研究のために探しています^-^、ありがとうございます！

Publickey

Publickey

Qiita

Dev.to

Dev.to