確率的回答から検証可能な推論へ：LLM生成コードによる解釈可能な意思決定

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMsを構造化データ上で決定論的に実行可能な、人間が読みやすい意思決定ロジックを生成するコード生成機として再定義し、高リスクな決定における解釈性と再現性に取り組む。
コード生成と自動統計検証（精度の向上、二項有意性検定、カバレッジフィルタリング）およびクラスタベースのギャップ分析を組み合わせ、人的注釈なしに規則を反復的に洗練させる。
このフレームワークは、ベンチャーキャピタルの創業者スクリーニング（VCBench、4,500名の創業者、ベースレート9%）でデモンストレーションされ、精度37.5%、F0.5スコア25.0%を達成。GPT-4oより精度で上回りつつ、完全な解釈性を維持。
各予測は実行可能で人間が読みやすいルールに結びついており、検証可能で監査可能なLLMベースの意思決定を実務で実現します。
サンプルごとのLLMクエリを排除し、再現性のある予測を可能にすることで、重要なタスクに対して解釈可能なAIをスケールさせることを目指します。

要旨: 大規模言語モデル（LLMs）は、リスクの高い意思決定においてますます利用されていますが、既存のアプローチはスケーラビリティ、解釈性、再現性の調和に苦労しています。ブラックボックスモデルは推論過程を隠蔽し、一方で最近のLLMベースのルールシステムはサンプルごとの評価に依存するため、データセットサイズに応じてコストが拡大し、確率的で幻覚を生みやすい出力を導入します。我々はLLMsを個別インスタンスの評価者としてではなくコード生成器として再定義することを提案します。1回のLLM呼び出しは、構造化データ上で決定ロジックを実行可能で人間が読める形に生成し、サンプルごとのLLMクエリを排除しつつ、再現可能で監査可能な予測を可能にします。我々はコード生成と、自動統計検証（適合率リフト、二項有意性検定、カバレッジフィルタリング）を組み合わせ、クラスタベースのギャップ分析を適用して、人間の注釈なしに意思決定ロジックを反復的に洗練させます。我々はこのフレームワークを、強い解釈性要件を伴う稀少事象予測タスクであるベンチャーキャピタル創業者スクリーニングに適用します。VCBenchでは、4,500名の創業者を対象としベース成功率が9%のベンチマークにおいて、我々のアプローチは適合率37.5%、F0.5スコア25.0%を達成し、GPT-4o（適合率30.0%、F0.5スコア25.7%）を上回りつつ完全な解釈性を維持します。各予測は人間が読める属性に対する実行可能なルールに追跡され、実践において検証可能で解釈可能なLLMベースの意思決定を示しています。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

確率的回答から検証可能な推論へ：LLM生成コードによる解釈可能な意思決定

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？