AI Navigate

Fin-R1: 強化学習による金融推論のための大規模言語モデル

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Fin-R1 は、金融推論に特化した70億パラメータの言語モデルで、汎用の大規模言語モデル(LLM)と比較して展開コストを削減するよう設計されています。
  • 2段階のトレーニングパイプラインを採用します。まず、権威あるベンチマークから蒸留した60,091件の思考の連鎖サンプルを含む Fin-R1-Data を用い、次に監督付き微調整と強化学習を行い、精度と解釈性を向上させます。
  • Fin-R1 は、確立された金融ベンチマークで競争力のある性能を示し、コンプライアンスチェックやロボアドバイザリー業務における実用性を示します。
  • このプロジェクトはオープンソースで、GitHub にコードが公開されており、700を超えるスターを獲得するなどコミュニティの関心が高まっており、採用と協力の可能性を示唆しています。

要約: 近年、GPT、Gemini、Claude、DeepSeek などの汎用大規模言語モデル(LLM)は前例のない速度で進歩しています。これらの成果にもかかわらず、金融分野への応用は依然として困難であり、データソースが断片化していること、推論過程が不透明であること、ビジネス用途への転用性が弱いことが要因です。これに応じて、金融シナリオ向けに設計された推論型LLM Fin-R1 を導入します。70億パラメータという小型のサイズで、Fin-R1は前述の課題に対処しつつデプロイコストを削減します。開発は二段階のパイプラインに従います。まずFin-R1-Dataを構築します。60,091件のChain-of-Thought(CoT)サンプルから成る高品質な金融データセットで、整合性と信頼性を確保するために、複数の権威あるベンチマークから蒸留・フィルタリングされています。次に、Fin-R1をFin-R1-Dataを用いて監督付き微調整(SFT)で学習し、その後強化学習(RL)を行います。この段階は、複雑な金融推論タスクを解く能力を大幅に向上させ、正確で解釈可能な出力を生み出します。比較的小さなパラメータ規模にもかかわらず、Fin-R1は確立された金融ベンチマークにおいて競争力のある実証的性能を発揮し、コンプライアンスチェックやロボアドバイザリにおいて実用的な有用性を示します。私たちのコードは https://github.com/SUFE-AIFLM-Lab/Fin-R1 に公開されており、すでに700を超えるスターを獲得しています。