要約: 大規模言語モデル(LLMs)は、データが制約された科学的ワークフローにおいて意思決定支援ツールとしてますます利用されており、正確性と妥当性が極めて重要です。
しかし、評価慣行はしばしば繰り返しの実行における安定性や再現性を強調します。
これらの特性は望ましいものですが、安定性だけでは、統計的真理が利用可能な場合でも、それと合意することを保証しません。
私たちは、LLMの意思決定の4つの次元を明示的に分離する、制御された挙動評価フレームワークを導入します:安定性、正確性、プロンプト感度、および固定された統計入力下での出力妥当性。
私たちは、厳密な有意閾値と緩やかな有意閾値、境界的なランキング状況、そして微小な表現の違いを含むプロンプト系にわたる差次発現解析に基づく統計的遺伝子優先順位付けタスクを用いて、複数のLLMを評価します。
実験は、LLMが実行間でほぼ完璧な安定性を示しつつ、統計的真理から体系的に逸脱し、緩やかな閾値の下で過剰に選択し、微小なプロンプト表現の変更に鋭敏に反応し、入力テーブルには存在しない構文的に妥当な遺伝子識別子を生成することがある、ことを示しています。
安定性は繰り返しの実行におけるロバスト性を反映しますが、構造化された科学的意思決定タスクにおいて統計的真理と合意を保証するものではありません。
これらの知見は、LLMを自動化または半自動の科学的ワークフローに展開する際、明示的な真理値検証と出力妥当性チェックの重要性を強調します。
安定性が崩れるとき:データ制約下の科学的意思決定におけるLLMsの隠れた故障モード
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、データが制約された科学的意思決定タスクにおいて、安定性だけでは統計的真理と一致する保証にはならないと主張している。
- 固定された統計的入力の下で、安定性、正確性、プロンプト感度、出力の妥当性を分離する制御された挙動評価フレームワークを導入している。
- この研究は、異なるプロンプト設定および有意閾値の下で、統計的な遺伝子優先度付けタスクへこのフレームワークを適用し、LLMs間で挙動が異なることを示している。
- 結果は、LLMsが高い実行間の安定性を示しつつ、統計的真理から乖離する場合があり、緩い閾値の下で過剰選択をする、あるいは入力には存在しないが構文的に妥当な遺伝子識別子を出力する、といった挙動を示すことを明らかにしている。
- 本研究は、自動化または半自動の科学的ワークフローにおいてLLMsを展開する際には、実データに基づく真理値の検証と出力の妥当性チェックの必要性を強調している。

