要旨: 大規模言語モデル(LLMs)は、金融研究レポートの作成にますます使われるようになり、補助的な分析ツールから主要なコンテンツ生成者へと移行しています。しかし、現実の実運用での最近の展開は、事実誤認、数値の不整合、捏造された参照、浅い分析といった持続的な失敗を明らかにしており、企業のファンダメンタルズの評価を歪め、最終的には深刻な経済的損失を引き起こす可能性があります。さらに、既存の金融ベンチマークは完成したレポートよりも理解力に焦点を当て、モデルが信頼性のある分析を生成できるかどうかを評価することには及んでいません。さらに、現行の評価フレームワークは単に幻覚を指摘するだけで、より深い分析スキルを測定する構造化された指標を欠いており、重要な分析上のボトルネックが未発見のままです。これらのギャップに対処するため、FinReasoningを導入します。これは、中国語の研究レポート作成を実際のアナリストのワークフローに合わせて3つの段階に分解し、意味的一貫性、データ整合性、および深い洞察を評価するベンチマークです。さらに、幻覚補正の評価を強化し、コア分析スキルの12指標から成るルーブリックを取り入れた、細粒度の評価フレームワークを提案します。評価結果に基づくと、ほとんどのモデルは理解と実行のギャップを示しており、誤りを特定できても正確な修正を生成するのが難しく、データを取得できても正しい形式で返すのが難しいです。さらに、3つのトラックすべてで圧倒的な優位性を達成したモデルはなく、Doubao-Seed-1.8、GPT-5、Kimi-K2が全体パフォーマンスの上位3位に入るものの、それぞれ独自の能力分布を示しています。評価リソースは https://github.com/TongjiFinLab/FinReasoning で利用可能です。
返却形式: {"translated": "翻訳されたHTML"}



