ルーツをたどる:ポストトレーニングLLMにおけるデータ系譜(データ・リネージ)を解明するためのマルチエージェント・フレームワーク
arXiv cs.AI / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ポストトレーニングLLMデータセットにおける「データ系譜(data lineage)」を導入し、時間とともにデータセットがどのように進化し、互いにどのような関係を持つようになるのかを再構成するための自動化されたマルチエージェント・フレームワークを提案する。
- 大規模な系譜分析により、数学に特化したデータにおける垂直方向の洗練(vertical refinement)や、一般ドメインのコーパスにおける水平的な集約(horizontal aggregation)など、領域固有の構造パターンが明らかになる。
- 著者らは、暗黙的なデータセット重複に起因する構造的冗長性や、系譜パスに沿ってベンチマーク汚染が伝播するという、システム的な問題を特定する。
- 再構成した系譜グラフを用いて、上流のルートソースに基づいて命令(instruction)のサンプリングを固定(アンカー)し、下流での均質化と隠れた冗長性を抑える「系譜を意識した多様性指向(lineage-aware diversity-oriented)」なデータセットを構築する。
- 本研究は、系譜中心の分析が、大規模なポストトレーニングのデータ・エコシステムを管理するための、サンプルレベルでのデータセット比較に代わるスケーラブルで頑健なトポロジカル(位相的)アプローチであると論じている。




