信頼性の高いLLMによるデータ分析のためのセマンティックレイヤー：3つの最先端モデル間での精度と幻覚をめぐるペアベンチマーク

arXiv cs.AI / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本研究は、LLMを用いた自然言語での分析クエリが失敗する主因として、データベースのスキーマにないビジネス意味（セマンティクス）をモデルが推測することを挙げ、その結果として誤答と自信のある幻覚が同時に生じると論じています。
研究では、ClickHouse上でCleaned Contoso Retail Datasetに対し、100問の自然言語質問を用いて3つの最先端モデル（Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.4）をベンチマークし、スキーマのみ提示する場合と、スキーマに加えて4KBの手書きmarkdownでセマンティックレイヤー（指標、慣習、曖昧さ解消ルール）を与える場合を比較しています。
セマンティックレイヤーを追加すると、3モデルすべてで精度が約+17〜+23ポイント向上し、明示的な定義に基づいて解釈を固定することで、幻覚を起こしやすい挙動を抑える効果が示されています。
セマンティックレイヤー追加後は3モデルの性能は同程度（67.7〜68.7%）で、追加しない場合も同程度（45.5〜50.5%）になり、クラスタ間の比較はすべてp<0.01で統計的に有意です。
著者らは、決定的要因はモデルの能力差よりも、ビジネスセマンティクスを明示的に与えること自体だと結論づけています。つまり、モデルが取り組む「タスクの内容」を変えることで主要なテキストto-SQLの誤りモードを抑制する、という構造的な結果だと解釈しています。

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

note

Takahiro.K ｜元SEコンサルのAI対話ログ

note

AIエージェントは、人間のように組織を運営することができるか

note

Geminiは現代の駆け込み寺 !? 悩み相談室!?

note

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

note

信頼性の高いLLMによるデータ分析のためのセマンティックレイヤー：3つの最先端モデル間での精度と幻覚をめぐるペアベンチマーク

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜ 元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の 駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Takahiro.K ｜元SEコンサルのAI対話ログ

Geminiは現代の駆け込み寺 !? 悩み相談室!?