概要: 自然言語からの知識グラフ構築では、複雑で情報密度の高い文から構造化されたトリプレットを抽出する必要があります。本論文では、テキストを原子的命題(情報の最小かつ意味的に自律した単位)へ分解することがトリプレット抽出を改善し得るかどうかを検討します。私たちは、6つの欧州言語を対象とする小型の多言語モデルであるMPropositionneur-V2を導入します。このモデルは、Qwen3-32Bからの知識蒸留により、Qwen3-0.6Bのアーキテクチャ上で訓練されています。そして、2つの抽出パラダイムへの統合について評価します。すなわち、エンティティ中心(GLiREL)と生成型(Qwen3)です。SMiLER、FewRel、DocRED、CaRBに対する実験の結果、原子的命題は、より弱い抽出器(GLiREL、CoreNLP、0.6Bモデル)に対して有益であり、関係のリコールを改善し、さらに多言語設定では全体の精度も向上することが示されました。より強力なLLMに対しては、フォールバックの結合戦略により、エンティティのリコール低下を回復しつつ、関係抽出における獲得を維持できます。これらの結果は、原子的命題が、抽出器を置き換えるのではなく補完する、解釈可能な中間データ構造であることを示しています。
LLMベースの原子命題は弱い抽出器を助ける:三つ組抽出のための命題生成器(Propositioner)の評価
arXiv cs.CL / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複雑な文を原子命題(最小で意味的に自律した情報単位)へ分解することで、自然言語からの知識グラフ三つ組抽出を改善できるかを検討する。
- Qwen3-32Bから知識蒸留を行い、Qwen3-0.6Bアーキテクチャに構築した、小型の多言語モデル MPropositionneur-V2(6つの欧州言語)を提案する。
- SMiLER、FewRel、DocRED、CaRB にわたる実験により、原子命題は特に弱い三つ組抽出器に有効であり、関係の再現率を高め、多言語設定における全体の精度を向上させることが示される。
- より強力なLLMベースの抽出器を用いる場合、著者らは、関係抽出における原子命題の利得を維持しつつ、エンティティ再現率の低下を回復するフォールバックの組み合わせ戦略を提案する。
- 全体として、本研究は原子命題を、既存の抽出システムに取って代わるのではなく補完する、解釈可能な中間表現として位置づけている。



