ProUIE:LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、外部情報を追加することなく結果の改善を目指す、LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法であるProUIEを提案する。
  • ProUIEは3つの段階で構成される。完全モデリング(CM)で、内在的な難易度の順にNER/RE/EEを学習し、簡素化されたアラインメント(SA)で構造化された出力を正則化して簡略化し、GRPOを用いた深い探索(DE)で段階的なきめ細かな報酬により学習を進める。
  • 36の公開データセットにわたる実験により、ProUIEはユニファイド抽出の性能を一貫して向上させ、NERおよびREにおいて強力な指示チューニング済みベースラインを上回ることが示される。
  • 本手法はより小さなバックボーンでこれらの改善を達成し、大規模でプロダクション志向の情報抽出設定において明確な向上を報告する。

Abstract

LLMベースの汎用情報抽出(UIE)手法は、多くの場合、元の学習データ以外の追加情報に依存しており、学習の複雑さが増す一方で、得られる効果は限定的であることが多い。これに対処するため、外部情報を一切導入しないことでUIEを改善する、Macro-to-Microの漸進的学習アプローチであるProUIEを提案する。ProUIEは3つの段階からなる:(i) マクロレベルのComplete Modeling(CM)。完全な学習データ上で、固有の難易度の順序に従ってNER、RE、EEを学習し、統一された抽出の基盤を構築する。(ii) メゾレベルのStreamlined Alignment(SA)。簡略化された目標フォーマットを用いてサンプルデータ上で動作し、構造化出力をより簡潔で制御可能なものにするために、抽出結果の整流化(ストリームライン化)と正則化を行う。(iii) マイクロレベルのDeep Exploration(DE)。構造単位に対して段階的なきめ細かな報酬(SFR)を用いるステップワイズの報酬設計でGRPOを適用し、探索を導いて性能を向上させる。36の公開データセットに対する実験では、ProUIEが統一抽出を一貫して改善し、小さなバックボーンを使用しつつ、NERおよびREにおいて平均で強力な指示チューニング済みベースラインを上回ることが示され、さらに大規模な実運用志向の情報抽出において明確な利得も実証される。

ProUIE:LLMベースのユニバーサル情報抽出のためのマクロからミクロへの漸進的学習手法 | AI Navigate