ワンサイズは誰にも合わない:LLM投資助言におけるヒューリスティック崩壊

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究は、高リスク領域での助言(医療、法務、金融商品提案など)で、最前線のLLMが真にユーザーの全文脈を統合した助言を行うのか、それとも「ヒューリスティック崩壊」により複雑な判断を少数の主要入力へ単純化するのかを検証します。
  • 投資助言の課題では、LLMの資金配分判断が自己申告のリスク許容度に強く支配され、法的に重要な他の要因の寄与は小さいことが分かります。
  • 解釈可能なサロゲートモデルを用いて入力感度を評価し、多要因の個別化された推論が、少数の支配的な入力へと縮約される体系的な傾向を示しています。
  • ウェブ検索による補強はヒューリスティック崩壊を部分的に弱めるものの、完全には解消できないため、補強やモデル規模だけでは不十分であることを示唆しています。
  • 論文は、LLMを助言者として導入する際には出力品質だけでなく、出力がどの入力にどれだけ敏感か(入力感度)を監査する必要があると結論づけています。

概要: 大規模言語モデルは、医療上の質問への回答、法的文書の解釈、金融商品の推奨など、高いリスクを伴う領域における助言者としてますます導入されている。そこでは、良い助言とは、目立つ表面的特徴に反応するのではなく、ユーザーの全体的な文脈を統合して反映することを必要とする。本研究では、最先端のLLMが実際にそのように振る舞うのか、それともヒューリスティック崩壊(heuristic collapse)を示すのか、すなわち複雑で多要因の意思決定が、少数の支配的な入力へと体系的に縮約される現象を調査する。我々は、法的基準がクライアントの全状況に基づく個別化された推論を明示的に要求する投資助言においてこの現象を研究する。LLM出力に対して解釈可能な代理モデルを適用した結果、体系的なヒューリスティック崩壊を見出した。すなわち、投資配分の意思決定は主として自己申告されたリスク許容度によって決定され、他の関連要因はほとんど寄与していない。さらに、Web検索はヒューリスティック崩壊を部分的に弱めるが、これを解消することはできないことを示す。これらの結果は、ヒューリスティック崩壊がWeb検索による拡張やモデル規模のみによっては解消されないこと、そしてLLMを助言者として導入するには、出力品質だけでなく入力の感度を監査する必要があることを示唆している。

ワンサイズは誰にも合わない:LLM投資助言におけるヒューリスティック崩壊 | AI Navigate