MeasHalu：強化された推論による大規模言語モデルの科学的計測（計量）ハルシネーション抑制

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MeasHaluは、AI4Scienceにおける重要課題である「文献から科学的な測定値を抽出する際の大規模言語モデルのハルシネーション」を低減するための提案フレームワークである。
本研究では、量・単位・修飾語・関係といった要素にまたがる「測定に関するハルシネーション」のきめ細かな分類（タクソノミー）を提示している。
さらに、拡張した科学データとプロセスベースの監督を用いた、推論を意識した2段階の微調整により、抽出時の推論品質を高める。
それに加えて、進行的な報酬カリキュラムを導入し、ハルシネーションの種類ごとにペナルティを与えることで、抽出の忠実性を大きく改善する。
結果として、MeasEvalベンチマークでハルシネーション率の低下と全体精度の向上が示され、信頼できる大規模な文献解析のボトルネック解消を狙っている。

要旨: 文献から科学的測定値を正確に抽出することは、AI4Scienceにおいて重要である一方、非常に難しい課題です。これは、大規模な分析と定量的研究成果の統合を可能にします。しかし、大規模言語モデル（LLM）はしばしば深刻なハルシネーションを示し、自動化された科学文書理解システムの信頼性を大きく損ないます。この問題に対処するために、我々は強化された推論と特定の最適化によって科学的測定ハルシネーションを緩和するための新しい枠組みMeasHaluを提案します。まず、測定に特化したハルシネーションのためのきめ細かな分類法を提示し、誤りを数量、単位、修飾語、そして関係にまたがって分類します。提案手法では、拡張した科学データとプロセスに基づく監督を用いた、二段階の推論を考慮したファインチューニング戦略を組み込みます。さらに、特定のハルシネーションの種類を罰するように設計された段階的リワード・カリキュラムを導入し、抽出の忠実性を大幅に向上させます。実験結果は、MeasHaluがハルシネーション率を大きく低減し、MeasEvalベンチマークにおける全体的な精度を改善することを示しています。本研究は、自動化された科学的知識抽出における主要なボトルネックに対する的を絞った解決策を提供し、より信頼でき、かつスケーラブルな機械支援による科学文献解析を促進します。