世界が未来を漏らす：進化を活用した未来予測エージェント

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMエージェントが最終結果が判明する前に公開情報のみで未解決の問いに対する予測を行う「未来予測」を扱います。
最終結果が分かった後にしか教師信号が得られないため、既存手法は因子追跡・証拠収集/解釈・不確実性の扱いを早い段階で改善しにくいと主張しています。
同じ未解決の問いを時間をおいて再度扱う際、前後の予測の差から初期の推論における見落としを検出できる「内部フィードバック」を提案します。
提案手法Milkywayは、基盤モデルは固定したまま、繰り返し予測の中で内部フィードバックを用いて持続的な「未来予測ハーネス」を更新し、次回以降の予測を予測時点の段階で改善させます。
FutureXとFutureWorldでの実験では、Milkywayが比較手法の中で最良の総合スコアを達成し、FutureX（44.07→60.90）およびFutureWorld（62.22→77.96）で大幅に向上しました。

Abstract

重要な意思決定の多くは、関連する結果が判明する前に行われなければならない。このような問題は一般に \\emph{未来予測} として定式化されることが多く、そこではLLMエージェントが、予測時点で利用可能な公開情報のみを用いて、未解決の問いに対する予測を立てる必要がある。この設定は困難である。というのも、有用な監督信号は問いが解決した後にしか到着しない一方で、公的な証拠は予測の間に進化していくからであり、既存のアプローチの多くは依然として主に最終的な結果から改善している。しかし最終結果は粗すぎて、より早い段階での要因追跡、証拠収集と解釈、あるいは不確実性の扱いを導くことができない。同じ未解決の問いが時間をおいて再訪される場合、過去の予測と後の予測の時間的対比が、過去の予測プロセスにおける欠落をあぶり出すことができる。これを我々は \\emph{内部フィードバック} と呼ぶ。我々は、基盤モデルを固定したまま、要因追跡、証拠収集と解釈、不確実性の扱いのための持続的な \\emph{未来予測ハーネス} を更新する自己進化型エージェントシステム \\emph{Milkyway} を提案する。同じ未解決の問いに対する繰り返しの予測を通じて、 \\emph{Milkyway} は内部フィードバックを抽出し、再利用可能なガイダンスをそのハーネスへ書き戻す。これにより、その問いに関する後続の予測は、結果が判明する前でも改善できる。問いが解決した後は、最終結果が更新されたハーネスを次の問いへ引き継ぐ前に \\emph{事後の確認} を提供する。FutureX および FutureWorld では、Milkyway は比較対象手法の中で最も高い総合スコアを達成し、FutureX を 44.07 から 60.90 へ、FutureWorld を 62.22 から 77.96 へと改善している。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

世界が未来を漏らす：進化を活用した未来予測エージェント

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer