科学的知識駆動のデコーディング制約によるLLMの信頼性向上

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、幻覚を減らすために強力な制約を通じて主題固有の知識を生成に注入する、知識駆動型のLLM生成アプローチ「SciDC」を提案する。
  • SciDCは、より強力なLLMを用いて、柔軟な領域知識を自動的に標準化された階層型(multi-layer)のルールへ変換し、そのルールで下流の領域タスク生成を制約できるようにする。
  • 産業分野の配合設計、臨床における腫瘍診断、レトロシンセシス計画といった科学領域での実験により、バニラ生成に比べて一貫した改善が示され、平均で12%の精度向上が得られた。
  • 著者らは、この枠組みが拡張可能であることを位置づけ、また、LLMが科学研究の一部を加速するために、強く圧縮された知識を自動的に帰納的に要約するのに役立てられる可能性について議論している。

Abstract

大規模言語モデル(LLM)は強力な知識ストックと課題解決能力を示してきましたが、依然として深刻なハルシネーションの課題に直面しており、実用化を妨げています。科学的理論やルールは人間の操作対象の行動を効率的に導くことができますが、LLMはトレーニングやプロンプトを通じて、これらの高度に圧縮された知識を十分に活用できていません。この問題に対処するため、対象分野に特化した知識と強い制約を統合する LLM 生成手法である extbf{SciDC} を提案します。柔軟な知識を多層化された標準化ルールへ自動的に変換する強力な LLM を採用することで、領域タスクにおいてモデル生成を効果的に制約するための拡張可能なフレームワークを構築します。工業的な配合設計、臨床における腫瘍診断、逆合成計画を含む科学タスクでの実験により、本手法の有効性が一貫して示され、バニラ生成と比較して平均で 12 extbackslash% の精度向上を達成しています。さらに、本論文では、非常に高度に圧縮された知識を LLM が自動的に帰納的に要約できる可能性について議論し、科学研究プロセス全体を加速するための実用的な解決策を見据えます。本論文のコード一式は(https://github.com/Maotian-Ma/SciDC)から入手できます。