SemEval-2026タスク6に向けたSG-UniBuc-NLP:チャンク化を用いたマルチヘッドRoBERTaによる長文コンテキスト回避検出
arXiv cs.AI / 2026/4/30
💬 オピニオンModels & Research
要点
- SG-UniBuc-NLPチームは、SemEval-2026タスク6(CLARITY)向けに、政治インタビュー回答を粗い粒度の明瞭性(3分類)と細かい粒度の回避戦略(9分類)の両方で分類するシステムを報告しています。
- 回答が通常のTransformerエンコーダの512トークン制限を超えることが多いため、重なりを持つスライディングウィンドウでチャンク化し、チャンク表現を要素ごとの最大プーリングで集約しています。
- 共通のRoBERTa-largeエンコーダに、課題別の2つの分類ヘッドをマルチタスク目的で同時学習させる構成です。
- 推論時には、7分割の層化交差検証に基づくアンサンブルを行い、Macro-F1はサブタスク1で0.80、サブタスク2で0.51となり、両方のサブタスクで11位でした。
- 提案された長文向け回避検出のパイプラインは、特に明瞭性に焦点を当てたサブタスクで有効であることが示唆されます。



