皆さん、こんにちは、
LLMsやVLMsを用いた画像説明/画像キャプション品質に特化したベンチマークやリーダーボードを探しています。
見つけるベンチマークの大半は、一般的なマルチモーダル推論、VQA、OCR、あるいは広範な視覚と言語のパフォーマンスに関するものですが、私が本当に求めているのは、モデルが自然言語で画像を説明する能力をどれだけうまく評価できるかです。
理想的には、次のようなものを探しています:
- 画像説明/キャプション作成のベンチマークデータセット、
- このタスクでのモデルを比較するリーダーボード、
- このシナリオで一般的に使用される評価指標、
- 可能であれば、従来のキャプショニングモデルだけでなく、最新のマルチモーダルLLMsに関連するベンチマーク。
私のユースケースは画像の音声説明を生成するモデルの評価ですので、有用で自然かつ正確なシーンの説明を反映するベンチマークに特に関心があります。
この件について良い参考文献、論文、リーダーボード、データセットをご存知の方はいらっしゃいますか?
研究のために探しています^-^、ありがとうございます!
[リンク] [コメント]