広告

強化された議論(引数)分類のためのマルチエージェント弁証法的洗練

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、議論(引数)マイニングにおける限界に取り組む。すなわち、教師あり手法はコストのかかるドメイン固有の微調整を要し、またLLMベースの手法は主張(Claims)と前提(Premises)のような曖昧な構成要素を誤分類し得る。
  • 提案手法は、MAD-ACC(Argument Component ClassificationのためのMulti-Agent Debate)であり、不確かなテキストに対して弁証法的な洗練を行うために、提唱者(Proponent)–反対者(Opponent)–審判(Judge)のマルチエージェント構成を用いる。
  • エージェントに反対の解釈をそれぞれ擁護させ、その後に裁定させることで、単一エージェントの自己修正でしばしば生じる構造的曖昧性の誤りを減らし、迎合(sycophancy)も緩和する。
  • UKP Student Essaysコーパスでの実験により、MAD-ACCはMacro F1 85.7%を達成し、単一エージェントの推論ベースラインを上回る一方で、ドメインに対して学習不要(training-free)であることが示される。
  • 本フレームワークは、分類判断を正当化する人間が読める「討論(debate)」のトランスクリプトを生成するため、ブラックボックス分類器よりも説明可能であると位置付けられている。

Abstract

論証マイニング(AM)は自動ライティング評価のための基盤技術である一方、従来の教師ありアプローチは高価でドメイン固有の微調整に大きく依存している。大規模言語モデル(LLM)は学習不要の代替手段を提供するが、構造上の曖昧性にしばしば苦しみ、主張(Claims)と前提(Premises)のような類似した構成要素を区別できないことがある。さらに、単一エージェントによる自己修正メカニズムは、モデルがそれらを批判的に評価するのではなく、初期の誤りを自ら強化してしまう「迎合(sycophancy)」の影響を受けやすい。そこで本稿では、分類の不確実性を解消するために弁証法的な洗練を活用する枠組みMAD-ACC(Argument Component ClassificationのためのMulti-Agent Debate)を提案する。MAD-ACCは、曖昧なテキストに対する相反する解釈をエージェント同士が主張し合う、提唱者(Proponent)—反対者(Opponent)—審判(Judge)モデルを用いる。これにより、単一エージェントモデルが見落とす論理的なニュアンスがあぶり出される。UKP Student Essaysコーパスでの評価により、MAD-ACCはマクロF1スコア85.7%を達成し、ドメイン固有の学習を必要とせずに、単一エージェントの推論ベースラインを大幅に上回ることが示される。加えて、「ブラックボックス」分類器とは異なり、MAD-ACCの弁証法的アプローチは、人間が読めるディベートの議事録(トランスクリプト)を生成して意思決定の根拠を説明することで、透明で説明可能な代替手段を提供する。

広告