説明可能な引用根拠付き対話のための段階的トレーニング: 英語-ヒンディー語LLMにおける幻覚をゼロに抑える

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

XKD-Dial は、明示的な引用根拠を伴う英語-ヒンディー語のバイリンガル設定における、説明可能で知識に基づく対話のための4段階からなる段階的トレーニングパイプラインを提案する。
このパイプラインは、多言語適応、引用根拠を伴う英語対話の監督付きファインチューニング（SFT）、バイリンガル対話のSFT、そして引用を意識した報酬を用いたGRPOの整合化から成る。
著者らは、トレーニング中に引用行動がどのように学習されるかを明らかにするため、3つの事後説明可能性分析—クロスアテンション整合、Integrated Gradients帰属、遮蔽に基づく因果根拠付け—を適用している。
引用根拠付きSFTは、ステージ2以降のエンコーダ-デコーダモデルにおける幻覚を0.0%に低減し、より小さなモデルもSFT後に英語で大規模モデルと同等の性能を発揮できる。
6つのモデル（250M-3Bのエンコーダ-デコーダおよび1B-7Bのデコーダ専用）と6つの指標（BLEU、ROUGE、BERTScore、FactScore、Citation-F1、幻覚率）を横断して、このアプローチは段階的な改善と、忘却を限定的に抑えつつヒンディー語能力の向上を示している。

note

note

note

note

note