エントロピー・ストレス下における大規模言語モデルの安定性解析のための情報幾何学的枠組み

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高リスクな実運用でのLLM信頼性は集計精度だけでは十分に捉えられないとして、熱力学／情報幾何学的発想に基づく新しい評価アプローチを提案しています。
「安定性スコア」と呼ばれる複合指標を導入し、タスク有用性、外部不確実性の尺度としてのエントロピー、さらに内部構造の代理指標（内部統合と整合的な反射能力）を統合して、無秩序が振る舞いに与える影響をモデル化します。
IST-20ベンチマーク手順と付随メタデータを用いて4つの現代的LLMにまたがる80件のモデル・シナリオ観測を分析し、提案手法が「有用性×エントロピーを簡略化したベースライン」より高い安定性スコアを一貫して示すと報告しています。
平均改善は0.0299（95% CI: 0.0247〜0.0351）であり、高エントロピー条件ほど改善が大きいことから、不確実性が非線形的に弱まるような挙動を捉えている可能性が示唆されています。
本研究は、物理法則や機械倫理の完全理論を主張するものではなく、不確実性・性能・内部構造を一つの評価レンズで結び付ける解釈可能な抽象化として位置づけられ、既存の安全性／信頼性／ガバナンス議論を補完することを目的としています。