Abstract
本研究では、保険損害の準備金積立(ロス・リザービング)に対する強化学習(RL)フレームワークを構築する。ここでは、準備金設定を、請求(クレーム)発生後の進展に伴う不確実性、マクロ経済的ストレス、そして支払余力(ソルベンシー)のガバナンスの下での有限ホライズン逐次意思決定問題として定式化する。積立プロセスはマルコフ決定過程(MDP)としてモデル化され、準備金の調整が将来の準備金充足度、資本効率、ならびに支払余力の結果に影響を与える。 Proximal Policy Optimization(PPO)エージェントは、留保不足(リザーブ・ショートフォール)、資本の非効率、ならびにボラティリティ調整後の支払余力下限(ソルベンシー・フロア)への違反を罰則として含むリスク感応型報酬を用いて学習される。さらにテールリスクは Conditional Value-at-Risk(CVaR)によって明示的に制御する。
規制当局によるストレステストの実務を反映するため、エージェントはレジーム(状況体制)を考慮したカリキュラムで学習され、レジーム別に層化したシミュレーションと、固定ショックを用いたストレスシナリオの両方で評価される。労災(Workers Compensation)およびその他の賠償責任(Other Liability)に関する実証結果により、提案するRL-CVaR方策が、従来のアクチュアリアルな準備金積立手法に比べてテールリスクの制御を改善し、支払余力違反を低減できることが示される。一方で、資本効率は同程度に維持される。さらに、モデルパラメータを、Solvency II および Own Risk and Solvency Assessment(ORSA)フレームワークのもとで、企業固有のリスク選好および監督当局の期待と整合させるために必要となるキャリブレーションおよびガバナンス上の考慮事項についても議論する。