ThermoQA：大規模言語モデルの熱力学的推論を評価するための3層ベンチマーク

arXiv cs.LG / 2026/4/23

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

ThermoQAは、293件のオープンエンドな工学系熱力学問題を「性質の参照」「部品（コンポーネント）解析」「サイクル全体解析」の3つの階層に分けて構成した新しいベンチマークです。
正解（グラウンドトゥルース）はCoolProp 7.2.0を用いてプログラム的に生成され、水、R-134a、可変比熱の空気といった作動流体を対象にしています。
最先端のLLM 6モデルについて各3回の独立実行で評価を行い、総合リーダーボードではClaude Opus 4.6、GPT-5.4、Gemini 3.1 Proが上位でした。
結果として階層をまたいだ性能低下が観測され、単なる性質の暗記が熱力学的推論と同義ではないことを示唆しています。
データセットとコードはオープンソースとしてHugging Faceで公開され、熱力学的推論の一貫性を再現可能に評価できます。

要旨: 本稿では、293件のオープンエンド型の工学熱力学問題からなるベンチマーク ThermoQA を提示する。問題は3つの階層に分かれており、(110 Q) は物性値ルックアップ、(101 Q) はコンポーネント分析、(82 Q) はフルサイクル分析である。正解（グラウンドトゥルース）はプログラムにより CoolProp 7.2.0 から計算したもので、水、R-134a、可変比熱を持つ空気を対象としている。6つのフロンティアLLMを、各々について独立な3回の実行にわたって評価した。複合リーダーボードのトップは Claude Opus 4.6 (94.1%)、GPT-5.4 (93.1%)、Gemini 3.1 Pro (92.5%) である。階層間の性能低下は Opus で2.8 pp から MiniMax で32.5 pp の範囲に及び、物性の暗記が熱力学的推論を意味しないことを裏づける。超臨界水、R-134a 冷媒、そしてコンバインドサイクル・ガスタービン分析は、自然な識別要因として機能し、40〜60 pp の性能差が見られる。複数回実行における σ の範囲は +/-0.1% から +/-2.5% であり、推論の一貫性を、独立した評価軸として定量化している。データセットとコードは https://huggingface.co/datasets/olivenet/thermoqa でオープンソースとして公開している。