認識論的安定性に向けて: 産業用LLMの幻覚低減のための一貫した手順の設計

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、モデルウェイトを変更せずに、産業用LLMの出力のばらつきと幻覚を減らすための5つのプロンプトエンジニアリング戦略(M1–M5)を導入します。
  • 固定タスクプロンプトとτ = 0.7を用いた100回の評価で、Enhanced Data Registry (M4) はすべての試行でより良い判定を得ました。M3とM5はそれぞれ80%、77%に達し、M1は75%、M2はシングルショット prompting と比較して34%のネガティブとなりました。
  • 強化版 v2 を開発した後、M2の性能は10回の検証バッチで34%から80%へと改善され、改良された手法の中で最大の改善を示しました。
  • 結果は、これらの戦略が産業用手順におけるLLM出力の非決定論的性質を軽減するのに役立つことを示していますが、絶対的な正確性は保証できません。
  • 著者らは、独立した再現性と評価を支援するために、疑似コード、逐語的プロンプト、およびバッチログを提供しています。
大規模言語モデル(LLMs)における幻覚は、文法的には整合しているが事実的に不正確であるか、文脈的に矛盾している出力である。これらは、エンジニアリング設計、エンタープライズリソース計画、および IoT テレメトリプラットフォームなど、リスクの高い産業設定において持続的な障害となる。我々は、モデルのウェイトを変更したり、複雑な検証モデルを作成したりせずに、出力のばらつきを減らし、再現可能で根拠のある結果へと導くことを目指す五つのプロンプトエンジニアリング戦略を提示・比較する。これらの手法には、(M1)Iterative Similarity Convergence、(M2)Decomposed Model-Agnostic Prompting、(M3)Single-Task Agent Specialization、(M4)Enhanced Data Registry、(M5)Domain Glossary Injection が含まれる。各手法は、内部ベースラインに対して、同じ固定タスクプロンプト、τ = 0.7 での100回の反復実行を用いたLLMをジャッジとして用いるフレームワークで評価される。評価設定の下で、M4(Enhanced Data Registry)は100試行すべてで『Better』の判定を得た。M3とM5はそれぞれ80%および77%に達した。M1は75%、M2はシングルショット prompting と比較して34%のネガティブとなった。続いて、強化版2 (v2) の実装を開発し、10回の検証バッチで評価した。M2は34%から80%へと回復し、四つの改良法の中で最大の改善を示した。我々は、これらの戦略が産業用手続きのLLM結果の非決定論的性質を克服するのに役立つ方法について議論するが、絶対的な正確性が保証されない場合がある。独立した評価を支援するために、疑似コード、逐語プロンプト、バッチログを提供する。