気候変動におけるLLMベンチマークとユーザーのニーズの不整合
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、一般に広く使われているLLMの気候変動ベンチマークが、気候の意思決定や政策論議に関わる実際のユーザーの、知識を求める行動や意図を反映していない可能性があると主張する。
- 人間同士および人間とAIの知識探索・知識提供のパターンを特徴づけるために、能動的な知識行動フレームワークと、Topic-Intent-Form(トピック-意図-形式)のタクソノミーを提案する。
- 気候関連データをさまざまな知識行動タイプに基づいて分析した結果、既存ベンチマークと現実世界のユーザーニーズとの間には大きな不整合があることを見出す。
- 人間とLLMの相互作用パターンは、ベンチマーク設計上の前提から期待されるよりも、人間同士の相互作用により近いことを報告する。
- ベンチマーク構築、RAGシステムの開発、そしてLLMトレーニングに関する改善のための実行可能な指針を提示し、さらにGitHubでコードを公開している。



