ESG-Bench: 長文コンテキストを持つESGレポートの幻覚抑制を目的としたベンチマーク

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ESG-Benchは、ESGレポートを理解するため、また大規模言語モデル（LLMs）の幻覚を抑制する目的を持つベンチマークデータセットを紹介します。
このデータセットは、実際のESG文脈に基づく人手注釈付きの質問-回答ペアを提供し、出力が事実的に裏付けられているか、あるいは幻覚であるかを示す細粒度ラベルを付与します。
本研究はESG分析を検証可能なQAタスクとして位置づけ、タスク特異的なChain-of-Thought（CoT）プロンプティング戦略を開発するとともに、CoT注釈付きの推論根拠を用いたLLMのファインチューニングを行います。
実験の結果、CoTベースの手法は幻覚を大幅に低減し、標準的なプロンプトや直接的な微調整を上回り、その効果はESG以外のQAベンチマークにも移行します。
このベンチマークは、コンプライアンスが重要な環境でのスケーラブルで信頼性の高い分析を可能にし、LLMがESGコンテンツを抽出・推論する能力の評価を前進させます。

要約: 企業の社会的責任（ESG）基準がますます取り入れられる中、ESG報告は多くの地域で法的義務となり、持続可能性の取り組みを記録し、企業の長期的かつ倫理的なパフォーマンスを評価する重要な手段となっています。ただし、ESG開示の長さと複雑さは、それらを解釈し、分析を信頼性高く自動化することを難しくします。拡張可能で信頼できる分析を支援するため、本論文は ESG-Bench を導入します。これは、ESG レポート理解と大規模言語モデル（LLMs）における幻覚緩和のためのベンチマークデータセットです。ESG-Bench には、実世界の ESG レポート文脈に根ざした、人間がアノテーションした質問応答（QA）ペアが含まれており、モデル出力が事実的に裏付けられているか幻覚かを示す細粒度ラベルが付されています。ESGレポート分析を検証可能性制約付きのQAタスクとして位置づけることにより、LLMs がESGコンテンツを抽出して推論する能力を系統的に評価できるようになり、社会的に機微で法令遵守が重要な状況で幻覚を緩和するという新たなユースケースが提供されます。私たちはタスク固有のChain-of-Thought（CoT）プロンプト戦略を設計し、CoT注釈付きの根拠を用いて ESG-Bench 上で複数の最先端 LLM をファインチューニングします。実験の結果、これらのCoTベースの方法は標準的なプロンプトと直接的なファインチューニングに比べて幻覚を低減する点で大幅に優れており、その利得はESG領域を超えた既存の QA ベンチマークにも転移することが示されました。
返却形式: {"translated": "翻訳されたHTML"}