信頼性の高いLLMによるデータ分析のためのセマンティックレイヤー:3つの最先端モデル間での精度と幻覚をめぐるペアベンチマーク

arXiv cs.AI / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLMを用いた自然言語での分析クエリが失敗する主因として、データベースのスキーマにないビジネス意味(セマンティクス)をモデルが推測することを挙げ、その結果として誤答と自信のある幻覚が同時に生じると論じています。
  • 研究では、ClickHouse上でCleaned Contoso Retail Datasetに対し、100問の自然言語質問を用いて3つの最先端モデル(Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.4)をベンチマークし、スキーマのみ提示する場合と、スキーマに加えて4KBの手書きmarkdownでセマンティックレイヤー(指標、慣習、曖昧さ解消ルール)を与える場合を比較しています。
  • セマンティックレイヤーを追加すると、3モデルすべてで精度が約+17〜+23ポイント向上し、明示的な定義に基づいて解釈を固定することで、幻覚を起こしやすい挙動を抑える効果が示されています。
  • セマンティックレイヤー追加後は3モデルの性能は同程度(67.7〜68.7%)で、追加しない場合も同程度(45.5〜50.5%)になり、クラスタ間の比較はすべてp<0.01で統計的に有意です。
  • 著者らは、決定的要因はモデルの能力差よりも、ビジネスセマンティクスを明示的に与えること自体だと結論づけています。つまり、モデルが取り組む「タスクの内容」を変えることで主要なテキストto-SQLの誤りモードを抑制する、という構造的な結果だと解釈しています。