IndiaFinBench：インドの金融規制文書に対する大規模言語モデルの性能評価ベンチマーク

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

本論文は、従来のベンチマークが主に西洋のデータに偏っていたためのギャップを埋める形で、インドの金融規制文書に対するLLM（大規模言語モデル）の性能を測る新しい公開評価ベンチマーク「IndiaFinBench」を提案しています。
IndiaFinBenchには、SEBIおよびRBIの192文書から抽出された406件の専門家による注釈付きQ&Aペアが含まれており、規制の解釈、数値推論、矛盾検出、時系列推論の4つのタスクにまたがります。
注釈品質は、モデルベースの検証（矛盾検出でkappa=0.918）と人手による一致度評価（kappa=0.611、全体で76.7%の一致）によって裏付けられています。
12モデルをゼロショット条件で評価したところ、精度は70.4%（Gemma 4 E4B）から89.7%（Gemini 2.5 Flash）の範囲に分布し、いずれのモデルも非専門家の人手ベースライン60.0%を上回りました。
数値推論はモデル間で最も差が出やすいタスクであり、ブートストラップの有意性検定により3つの統計的に異なる性能ティアが示されました。データセット、評価コード、モデル出力はGitHubで公開されています。

概要: 私たちは、インドの金融規制文書に対する大規模言語モデル（LLM）の性能を評価するための、私たちの知る限り最初の一般公開された評価ベンチマークであるIndiaFinBenchを紹介します。既存の金融NLPベンチマークは、（SEC提出書類、米国の決算報告、英語の金融ニュースといった）西洋の金融コーパスのみに基づいています。その結果、西洋以外の規制枠組みに対するカバレッジには大きな欠落があります。IndiaFinBenchは、この欠落を埋めるために、インド証券取引委員会（SEBI）およびインド準備銀行（RBI）から収集した192の文書に基づく、専門家によって注釈付けされた406の質問—回答ペアを提供します。これらは4種類のタスクタイプにまたがります：規制の解釈（174件）、数値推論（92件）、矛盾検出（62件）、時間的推論（78件）。注釈の品質は、モデルに基づく二次パスによって検証され（矛盾検出でkappa=0.918）、さらに60項目の人手による評価者間一致の評価によっても検証されています（kappa=0.611；全体で76.7%の一致）。ゼロショット条件で12のモデルを評価し、精度は70.4%（Gemma 4 E4B）から89.7%（Gemini 2.5 Flash）までの範囲でした。すべてのモデルは、非専門家の人間ベースラインである60.0%を大幅に上回ります。最も識別力が高いタスクは数値推論であり、モデル間で35.9パーセンテージポイントの差が見られます。ブートストラップによる有意性検定（10,000回のリサンプル）により、3つの統計的に異なる性能ティアが明らかになりました。データセット、評価コード、およびすべてのモデル出力はhttps://github.com/rajveerpall/IndiaFinBench で利用可能です