気候変動におけるLLMベンチマークとユーザーのニーズの不整合

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、一般に広く使われているLLMの気候変動ベンチマークが、気候の意思決定や政策論議に関わる実際のユーザーの、知識を求める行動や意図を反映していない可能性があると主張する。
人間同士および人間とAIの知識探索・知識提供のパターンを特徴づけるために、能動的な知識行動フレームワークと、Topic-Intent-Form（トピック-意図-形式）のタクソノミーを提案する。
気候関連データをさまざまな知識行動タイプに基づいて分析した結果、既存ベンチマークと現実世界のユーザーニーズとの間には大きな不整合があることを見出す。
人間とLLMの相互作用パターンは、ベンチマーク設計上の前提から期待されるよりも、人間同士の相互作用により近いことを報告する。
ベンチマーク構築、RAGシステムの開発、そしてLLMトレーニングに関する改善のための実行可能な指針を提示し、さらにGitHubでコードを公開している。

Abstract

気候変動は主要な社会科学的課題であり、公的な意思決定や政策議論のあり方を形づくります。大規模言語モデル（LLM）がますます気候知識へアクセスするためのインターフェースとして機能するようになる中で、既存のベンチマークがユーザのニーズを反映しているかどうかを現実の状況で評価することは重要です。本研究では、さまざまな人間—人間および人間—AIの知識探索・提供行動を捉える、主導的知識行動の枠組み（Proactive Knowledge Behaviors Framework）を提案します。さらに、Topic-Intent-Formの分類（トピック—意図—形式の分類法）を発展させ、それを気候関連データに適用して、異なる知識行動を表すデータを分析します。その結果、現在のベンチマークと現実のユーザニーズとの間に大きな不一致があることが明らかになりました。一方で、人間とLLMの間の知識相互作用のパターンは、人間—人間の相互作用に非常によく似ています。これらの知見は、ベンチマーク設計、RAGシステム開発、そしてLLMトレーニングのための実行可能な指針を提供します。コードは https://github.com/OuchengLiu/LLM-Misalign-Climate-Change で利用可能です。