TPS-CalcBench：極超音速熱防護システム工学におけるLLMの解析計算能力を評価・診断するためのベンチマークと評価フレームワーク

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、安全性が重大な航空宇宙分野でLLMを推論支援として使うには、汎用の数学・物理ベンチマーク以上の評価基準が必要だと主張しており、物理的に誤っているのに数値的にもっともらしい答えは、回答を拒否するより危険になり得ると述べています。
その解決として、極超音速熱防護システム（TPS）工学における閉形式の解析計算に焦点を当てた診断型ベンチマークTPS-CalcBenchを提案します。
フレームワークでは、結果の正確性と推論の質を同時に評価する「デュアルトラック」方式を採用し、8次元のルーブリックと、人手による監査を伴う校正済みジャッジによって「正解だが誤った推論」といった致命的な失敗を検出します。
TPS-CalcBenchは大規模なデータセット（高信頼420件、ノイズを抑制した810件）に加え、データ品質がモデルのランキングに与える影響を測るノイズ感度分析を含みます。
13モデルでの実験ではKPIに大きなばらつきが見られ（12.6〜87.9）、隠れた公式選択の欠陥などの傾向が特定され、診断—評価—介入の枠組みの中で3つの介入手法（DFA-TPS微調整、RAG-EQによるグラウンディング、プロセスを意識したプロンプト）が性能改善につながることが示されています。

概要: 安全性が極めて重要な航空宇宙工学の領域で、推論アシスタントとしてLLMを展開するには、一般的な科学ベンチマークよりも厳格な評価基準が必要です。極超音速の熱防護システム（TPS）設計では、不正確な停滞点熱流束や境界層の計算が、設計マージンの致命的な違反につながり得ます。数値的には妥当に見えるものの物理的には不正な解答を返すモデルは、応答を拒むモデルよりも危険です。現在の科学ベンチマークは、抽象的な数学と基礎的な物理のみをテストし、最終解答だけを評価して、工学的な推論プロセスを無視しており、このような重大な失敗を検出できません。私たちは、シミュレーションなしに経験豊富なTPSエンジニアが行う、極超音速空力および高温ガスダイナミクスにおける閉形式の解析計算のための、初めての診断ベンチマークであるTPS-CalcBenchを提案します。貢献は、Andersonの教科書から4つの難易度レベルと8つのカテゴリを含む領域指向のタスク分類、結果の正確さと推論の質を8次元のルーブリックで測り、人手による監査で「正解だが推論が誤り」の問題を特定する較正済みジャッジによるデュアルトラック評価、4560件の生データから420件の高信頼コア項目と810件のノイズ制御済みプレゲーティング項目を生成する人手-人工知能データパイプライン、データ品質がモデルのランキングに与える影響を測定するノイズ感度分析、そして3つの診断介入手法：DFA-TPSの微調整、RAG-EQによる検索の根拠付け、PA-CoTのプロセス認識型プロンプティングを含みます。7グループの13モデルでのテストでは、性能に大きな差があること（KPI 12.6-87.9）、隠れた公式選択の欠陥、データ駆動の順位変動、ならびに介入の有効性の改善が示され、安全性が極めて重要な工学用途におけるLLM展開の評価のための、完全な「診断-評価-介入」フレームワークが確立されました。