IDEA：言語から数値へのキャリブレーションによるLLMのための、解釈可能で編集可能な意思決定フレームワーク

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高リスクなユースケースにおける誤ってキャリブレーションされた確率や、信頼できない説明の問題に対処する、LLM向けの解釈可能で編集可能な意思決定フレームワークであるIDEAを提案する。
IDEAは、EMにより意思決定パラメータと共同で学習された言語から数値へのキャリブレーションを用いて、LLMから意思決定知識をパラメトリックモデルへ抽出し、意味のある要因間の依存関係を保持する。
本手法は、数学的な保証を伴う直接的なパラメータ編集をサポートし、プロンプトだけでは実現できない定量的な人間–AIの協働を可能にする。
5つのデータセットでの実験により、Qwen-3-32Bを用いたIDEAは78.6%の性能を達成し、要因の完全な除外と正確なキャリブレーションを実現し、DeepSeek R1およびGPT-5.2を上回る。
オープンソースの実装は公開GitHubリポジトリとして提供されており、導入やさらなる評価を促進する。

要旨: 大規模言語モデルは意思決定のためにますます導入されている一方で、高リスクな領域への採用は、誤って較正された確率、忠実でない説明、そして専門家知識を正確に取り込めないことによって制限されています。私たちは IDEA を提案します。これは、LLM の意思決定知識を、意味的に妥当な因子に対する解釈可能なパラメトリックモデルへ抽出するための枠組みです。EM による、言語から数値への対応関係と意思決定パラメータの共同学習、因子間の依存関係を保持する相関サンプリング、さらに数学的保証を伴う直接的なパラメータ編集によって、IDEA は較正された確率を生成しつつ、定量的な人間—AI の協調を可能にします。5 つのデータセットにわたる実験では、Qwen-3-32B を用いた IDEA（78.6%）が DeepSeek R1（68.1%）および GPT-5.2（77.9%）を上回り、因子の完全な除外と正確な較正を達成しています――プロンプトのみでは到達できない精度です。実装は https://github.com/leonbig/IDEA で公開されています。

Black Hat Asia

AI Business

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

IDEA：言語から数値へのキャリブレーションによるLLMのための、解釈可能で編集可能な意思決定フレームワーク

要点

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵