ProUIE：LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、外部情報を追加することなく結果の改善を目指す、LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法であるProUIEを提案する。
ProUIEは3つの段階で構成される。完全モデリング（CM）で、内在的な難易度の順にNER/RE/EEを学習し、簡素化されたアラインメント（SA）で構造化された出力を正則化して簡略化し、GRPOを用いた深い探索（DE）で段階的なきめ細かな報酬により学習を進める。
36の公開データセットにわたる実験により、ProUIEはユニファイド抽出の性能を一貫して向上させ、NERおよびREにおいて強力な指示チューニング済みベースラインを上回ることが示される。
本手法はより小さなバックボーンでこれらの改善を達成し、大規模でプロダクション志向の情報抽出設定において明確な向上を報告する。

Abstract

LLMベースの汎用情報抽出（UIE）手法は、多くの場合、元の学習データ以外の追加情報に依存しており、学習の複雑さが増す一方で、得られる効果は限定的であることが多い。これに対処するため、外部情報を一切導入しないことでUIEを改善する、Macro-to-Microの漸進的学習アプローチであるProUIEを提案する。ProUIEは3つの段階からなる：(i) マクロレベルのComplete Modeling（CM）。完全な学習データ上で、固有の難易度の順序に従ってNER、RE、EEを学習し、統一された抽出の基盤を構築する。(ii) メゾレベルのStreamlined Alignment（SA）。簡略化された目標フォーマットを用いてサンプルデータ上で動作し、構造化出力をより簡潔で制御可能なものにするために、抽出結果の整流化（ストリームライン化）と正則化を行う。(iii) マイクロレベルのDeep Exploration（DE）。構造単位に対して段階的なきめ細かな報酬（SFR）を用いるステップワイズの報酬設計でGRPOを適用し、探索を導いて性能を向上させる。36の公開データセットに対する実験では、ProUIEが統一抽出を一貫して改善し、小さなバックボーンを使用しつつ、NERおよびREにおいて平均で強力な指示チューニング済みベースラインを上回ることが示され、さらに大規模な実運用志向の情報抽出において明確な利得も実証される。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

ProUIE：LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵