競合性を犠牲にせず、検証可能なドメイン熟達と幻覚制御を実現する産業規模の保険用大規模言語モデル（LLM）

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

INS-S1 は、幻覚を抑制しつつドメイン熟達を達成するためにエンドツーエンドの整合性を持って訓練された、保険専用のLLMファミリーである。
この手法は、検証可能なデータ合成システムと、段階的なSFT-RLカリキュラム（RLVR および RLAIF）を組み合わせて、保険数理推論、コンプライアンス、データ整合性を強制し、忘却を防ぐための動的データアニーリングを実現する。
著者らは、3.9万サンプル超を含む大規模な保険ベンチマークINSEvaを公開し、ドメインタスクでのSOTA性能と、記録的に低い幻覚率0.6%を報告しつつ、幅広い汎用能力を維持している。
彼らは、厳密なドメイン特化は汎用知能を損なうことなく達成可能であると主張しており、規制産業における高リスクAI展開への潜在的影響を示唆している。

概要：大規模言語モデル（LLMs）を保険のようなリスクの高い垂直ドメインへ適用することは、重大な課題を提示します：シナリオは複雑な規制とビジネスロジックを厳格に遵守することを要求し、幻覚を許容しないゼロ・トレランスが求められます。
既存のアプローチは多くの場合、一般知能をドメイン専門知識のために犠牲にする能力のトレードオフ（Competency Trade-off）に悩まされるか、固有の推論を欠くRAGに過度に依存します。このギャップを埋めるため、INS-S1と呼ばれる保険特化のLLMファミリーを、新規のエンドツーエンド整合パラダイムを用いて訓練したものを提案します。提案手法には二つの方法論的イノベーションが含まれます：
（1）保険数理推論とコンプライアンスのための階層的データセットを構築する検証可能なデータ合成システム；
（2）動的データアニーリングを統合し、検証済み推論（RLVR）とAIフィードバック（RLAIF）の相乗的な組み合わせを取り入れた Progressive SFT-RL カリキュラムフレームワーク。
データ比率と報酬信号を最適化することにより、このフレームワークはドメイン制約を強制するとともに、破局的忘却を防ぎます。さらに、これまでで最も包括的な保険ベンチマークINSEvaを公開します（3.9万件以上のサンプル）。広範な実験の結果、INS-S1はドメインタスクでSOTA（最先端）性能を達成し、DeepSeek-R1およびGemini-2.5-Pro を大幅に上回ることが示されました。重要な点として、それはトップクラスの汎用能力を維持し、0.6%という記録的低さの幻覚率（HHEM）を達成します。我々の結果は、厳密な領域特化が一般知能を損なうことなく達成できることを示しています。