要旨: テキストから因果発見を行ううえでの根本的な障害は、高い注釈コストにより、真値(ground truth)として利用できる因果注釈付きテキストデータが欠けていることです。そこで、因果グラフ注釈付きテキストを生成する重要な課題が動機づけられます。初期のテンプレートベースの生成手法は、因果グラフ注釈の精度の高さと引き換えに、テキストの自然さを犠牲にしていました。近年の大規模言語モデル(LLM)依存型の手法は、LLMを用いて対象となるグラフから自然なテキストを直接生成しますが、因果グラフ注釈の精度が保証されません。そこで本研究では、iTAG を提案します。これは、既存の LLM 依存型手法において因果グラフをテキストへ変換する前に、ノードへ実世界の概念割り当てを行います。iTAG は、このプロセスを因果グラフを目標とする逆問題として定式化し、Chain-of-Thought(CoT)推論によって概念の選択を反復的に検討・洗練することで、誘導される概念間の関係が、因果グラフに記述された目標の因果関係と可能な限り一貫するようにします。iTAG は、広範な検証において非常に高い注釈精度と自然さの両方を示し、生成データを用いたテキストベースの因果発見アルゴリズムの検証結果は、実世界データとの高い統計的相関を示します。これは、iTAG によって生成されたデータが、テキストベース因果発見アルゴリズムの大規模なベンチマークを行うための実用的な代替(サロゲート)として機能し得ることを示唆しています。
iTAG:正確な因果グラフ注釈を伴う自然言語生成のための逆設計
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ラベル付けコストが高いことにより因果的に注釈された正解テキストが不足している問題に対し、因果グラフ注釈とペアになった自然言語テキストを生成する手法 iTAG を提案する。
- 先行研究のテンプレートベース手法(自然さを犠牲にして注釈精度を向上させる)や、LLM のみの手法(注釈の正確さが保証されない可能性がある)とは異なり、iTAG はまず現実世界の概念をグラフのノードに割り当て、その後そのグラフをテキストへ変換する。
- iTAG は概念選択を逆問題として扱い、Chain-of-Thought(思考連鎖)による推論を用いてノードの概念選択を反復的に洗練し、誘導される関係が目標の因果グラフに可能な限り一致するようにする。
- 実験では因果注釈の非常に高い精度と、強いテキストの自然さの双方が報告され、下流タスクの評価では、生成データがテキストベースの因果発見において実世界データと統計的に相関することが示される。
- 著者らは、iTAG により生成されたデータセットが、テキストベースの因果発見アルゴリズムを評価するためのスケーラブルな代替ベンチマークとして機能し得ると主張している。



