FinRule-Bench: 金融表と原則に対する共同推論のベンチマーク

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FinRule-Benchは、貸借対照表、キャッシュ・フロー計算書、損益計算書、株主資本等変動計算書にわたって、明示的な会計原則に基づく構造化財務諸表の監査を評価するベンチマークを導入します。
3つの監査タスクを定義します：ルール検証、ルール識別、共同ルール診断。これらは順次、より厳密な推論と違反の局在化を要求します。
本ベンチマークは、人間が厳選した原則を用いた実データを用い、意思決定・説明・反事実判断を整合させる因果-反事実推論プロトコルを追加します。
単独ルール検証で強力な性能を示す一方、ルール識別および複数違反診断では大幅に性能が低下することが示され、ルールに基づく金融推論における現状のLLMの限界が明らかになっています。

大規模言語モデル（LLMs）は財務分析への適用が進んでいますが、明示的な会計原則のもとで構造化財務諸表を監査する能力は十分には検討されていません。既存のベンチマークは主に、合成的に改ざんされたデータに対する質問応答、数値推論、または異常検知を評価しており、正しい財務諸表に対してモデルがルールの遵守を信頼性高く検証または局在化できるかどうかは不明です。私たちはFinRule-Benchを導入します。これは現実世界の財務表に対するルールベースの財務推論における診断的完備性を評価するベンチマークです。FinRule-Benchは、実データの財務諸表と明示的で人手で精選された会計原則を対応づけ、4つの標準的な財務諸表タイプをまたぎます：貸借対照表、キャッシュ・フロー計算書、損益計算書、株主資本等変動計算書。ベンチマークは、推論能力を段階的に強化していく3つの監査タスクを定義します：(i) ルール検証は単一の原則への適合性を検証します；(ii) ルール識別は提供された原則集合の中から違反した原則を選択することを求めます；(iii) 共同ルール診断はレコードレベルで複数の同時違反を検出・局在化することを求めます。私たちはゼロショットおよび少数ショットのプロンプティングの下でLLMを評価し、意思決定・説明・反事実判断の一貫性を強制する因果-反事実推論プロトコルを導入します。タスクと財務諸表タイプを横断して、単独のルール検証ではモデルが良好な性能を示す一方、ルール識別と複数違反診断では性能が急激に低下することを発見しました。FinRule-Benchは、ハイリスクな財務分析におけるルール支配的推論、診断カバレッジ、そしてLLMの故障モードを研究するための原理的で再現性のあるテスト基盤を提供します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

FinRule-Bench: 金融表と原則に対する共同推論のベンチマーク

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer