指示ベースのチェーン・オブ・ソート・プロンプティングによる知識編集の学習

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実運用のタスクや問題への汎化性能を高めた形で、LLMに知識編集を行わせることを教えるための枠組みであるCoT2Editを提案する。
先行する知識編集手法の2つの限界に取り組む。具体的には、現実世界での解決へ確実に結びつかない硬直的な事実の注入、そしてニュースや記事などの非構造化ソースを無視し、構造化トリプルにのみ焦点を当てている点である。
CoT2Editは、言語モデルエージェントを用いて高品質な指示データを生成し、構造化された編集済み知識と非構造化された編集済み知識の双方に対してチェーン・オブ・ソート（CoT）推論を行わせる。
本アプローチでは、教師あり微調整（SFT）とGroup Relative Policy Optimization（GRPO）を組み合わせてモデルを学習し、その後推論時にRetrieval-Augmented Generation（RAG）を追加して、関連する編集済み事実をリアルタイムに取得する。
実験では、3つのオープンソース言語モデルに対して単一ラウンドの学習を行うことで、6つの知識編集シナリオにまたがる強い汎化性能が報告されており、コードはGitHubで公開されている。

AI Business

日経XTECH

日経XTECH

Reddit r/MachineLearning

Hugging Face Blog