要旨: 環境・社会・ガバナンス(ESG)の考慮は、企業の業績、評判、長期的な持続可能性を評価するうえで、ますます不可欠になっています。しかし、信頼できるESG格付けは、より小規模な企業や新興国に対しては依然として限られています。私たちは、最初の公開利用可能なスロベニア語ESGセンチメントデータセットと、自動ESGセンチメント検出のための一連のモデルを提案します。このデータセットは、MaCoCuスロベニア語ニュース収集から得られており、大規模言語モデル(LLM)による支援付きのフィルタリングと、企業関連のESGコンテンツに対する人手によるアノテーションを組み合わせています。単言語モデル(SloBERTa)と多言語モデル(XLM-R)、埋め込みベースの分類器(TabPFN)、階層型アンサンブル構成、そして大規模言語モデルの性能を評価します。その結果、LLMは環境(Gemma3-27B、F1-macro: 0.61)および社会面(gpt-oss 20B、F1-macro: 0.45)で最も強い性能を示し、一方で、微調整したSloBERTaはガバナンス分類で最良のモデルです(F1-macro: 0.54)。さらに、最良の性能を持つ分類器(gpt-oss)を用いて、長期の時間枠にわたり選定した企業についてESGの側面を調査する方法を、小規模なケーススタディで示します。
スロベニアのニュースにおける環境・社会・ガバナンス(ESG)センチメント分析:新規データセットとモデル
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MaCoCuスロベニア語ニュースからLLM支援によるフィルタリングと、企業関連のESG内容に対する人手アノテーションを組み合わせて構築した、最初の一般公開可能なスロベニア語ESGセンチメント・データセットを提示する。
- 環境・社会・ガバナンスのセンチメント検出に関する複数の自動手法を評価する。具体的には、単言語のSloBERTa、多言語のXLM-R、埋め込みベースのTabPFN分類器、階層型エンサンブル、ならびに複数の大規模言語モデルの設定を含む。
- 結果は、環境および社会の側面分類ではLLMが最も優れた性能を示し、一方でガバナンス分類では微調整したSloBERTaモデルが最高の性能を達成することを示している。
- 小規模なケーススタディにより、最も性能の高い分類器(gpt-oss)を用いて、選定した企業について長期の時間軸にわたってESG側面を分析できることを示す。
- 本研究は、ニュースからのスケーラブルな言語特化型ESGセンチメント分析を可能にすることで、中小企業や新興市場に対する信頼性の高いESG格付けという重要なギャップを埋めることを目指している。



