因果ハルシネーションを緩和するための効果的なCoTトレースの生成

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、小型LLM（パラメータ数≤1.5B）におけるイベント因果関係の同定（ECI）で深刻な因果ハルシネーションが発生する問題に取り組み、その対策としてChain-of-Thought（CoT）の微調整を評価する。
因果のこの設定において「効果的」なCoTトレースが含むべき内容を分析し、その基準を満たすCoTトレースを生成するための生成パイプラインを提案する。
因果ハルシネーションをECIで評価する既存の指標がなかったため、著者らは新たな評価指標であるCausal Hallucination Rate（CHR）を導入し、トレース基準の定義と改善の検証の両方を行う。
実験結果は、生成したCoTトレースによる微調整が因果ハルシネーションを大幅に低減するだけでなく、平均精度も向上させることを示す。さらに、データセット／難易度をまたいだ強い汎化性と、誤解を招く介入プロンプトへの頑健性が確認された。

概要: 大規模言語モデル（LLM）は複雑な推論タスクにおいて優れていますが、事象因果関係の同定（ECI）においては、特に小規模モデル（ $24\leq$ 1.5Bパラメータ）で、重大な因果幻覚（causal hallucination）に悩まされています。この問題に対処する有望なアプローチは、Chain-of-Thought（CoT）トレースでそれらを微調整することです。しかし、ECI向けのCoTトレース・データセットが現時点では不足しています。本論文では、まず、小規模モデルにおける因果幻覚を緩和するために有効なCoTトレースが備えるべき本質的な基準を調査します。次に、これらの基準を満たすCoTトレースを生成するためのパイプラインを設計します。さらに、因果幻覚を定量化するための指標が現在存在しないため、因果幻覚率（Causal Hallucination Rate: CHR）という新しい指標も導入します。これにより、効果的なCoTトレース基準の定式化を導き、提案パイプラインの有効性を検証します。実験の結果、提案パイプラインで生成したCoTトレースによる微調整は、小規模LLMにおける因果幻覚を大幅に低減するだけでなく、平均精度も向上させることが示されます。さらに、微調整済みモデルは、データセット間および難易度間における強力な汎化能力を示すとともに、誤誘導的な介入プロンプト下でも頑健です。

Black Hat Asia

AI Business

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

因果ハルシネーションを緩和するための効果的なCoTトレースの生成

要点

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵