K-MetBench:気象分野における専門的推論・局所性・マルチモーダリティをきめ細かく評価する多次元ベンチマーク
arXiv cs.CL / 2026/4/28
📰 ニュースModels & Research
要点
- K-MetBenchは、韓国の気象予報士向けのマルチモーダルな大規模言語モデルアシスタントを評価するための、専門家レベルの多次元ベンチマークとして提案されています。
- ベンチマークは権威ある資料(国家資格試験)に基づき、図表の視覚的推論、専門家が検証した根拠による論理妥当性、韓国固有の地理・文化的理解、そしてドメイン分析のきめ細かさという4つの観点を評価します。
- 55モデルを評価した結果、専門的な気象図表の解釈におけるモダリティのギャップと、正しい予測をしていても論理的に破綻した説明(ハルシネーション)を作る推論ギャップの2つが大きな弱点として見つかりました。
- 韓国のモデルは、より大規模なグローバルモデルよりもローカルな文脈で大きく優れており、パラメータ規模の拡大だけでは文化・地域依存の理解は解決されないことが示されています。
- 著者はデータセットをHugging Faceで公開し、気象分野で信頼でき、文化に配慮した専門家AIエージェントを開発するための指針になると位置づけています。


