燃焼LLMsのためのフルスタック・ドメイン強化：構築と最適化

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、汎用的な大規模言語モデルが燃焼科学の分野で苦戦する理由として、領域知識が不足していることと物理的保存則を適用・遵守できないことを指摘しており、これが幻覚的出力（ハルシネーション）につながると述べている。
燃焼分野向けの初のフルスタック・ドメイン強化LLMワークフローを提案し、自動化されたドメインコーパスの構築、インクリメンタルな事前学習、指示適合ファインチューニング、検証可能な報酬ベースの強化学習を統合して、物理法則を内在化する。
FlameBench は燃焼科学における複雑な推論タスクの標準化ベンチマークとして公開され、実験の結果、ドメイン強化モデルは最先端の汎用モデルおよび従来の検索付き生成（RAG）を上回り、燃焼タスクで優れた性能を示した。
本研究は、信頼できる科学的推論を備えたドメイン特化型の科学研究エージェントの基盤を築くとともに、燃焼科学における堅牢なドメイン認識AIの将来の方向性を示している。

要旨: 専門分野のタスク適応と能力強化の方向性にある大規模言語モデル（LLMs）は、顕著な応用ポテンシャルを示します。とはいえ、燃焼科学のような複雑な物理系に対して、汎用のLLMsは領域知識が不足していることと物理的保存則を遵守できないことから、しばしば深刻な幻覚を生み出します。これに対処するため、燃焼科学の分野向けに特化した初のフルスタックのドメイン強化LLMワークフローを提案します。自動化されたドメインコーパス構築、逐次的な事前学習、指示のファインチューニング、検証可能な報酬ベースの強化学習を統合しています。このワークフローは、モデルが単にテキストの統計的パターンを学習するだけでなく、物理法則を真に内在化することを保証します。また、燃焼科学の複雑な推論タスクに特化して設計された標準化評価ベンチマーク FlameBench を公開します。実験結果は、本研究で開発されたモデルが、最先端の汎用のクローズドソースモデルおよび従来の検索強化付き生成法を、燃焼科学の推論タスクで大幅に上回ることを示しています。本研究は、信頼性の高い科学的推論能力を備えたドメイン特化型の科学研究エージェントの今後の開発に向けて、堅固な技術的・資源的基盤を築きます。

返却形式: {"translated": "翻訳されたHTML"}