要旨: 市民通報プラットフォームは、一般市民および当局がセクシュアルハラスメントの事案に関する情報を把握し続けるのに役立ちます。しかし、これらのプラットフォームで共有されるデータ量が非常に多いため、各個別のケースを見直すことは困難です。したがって、さまざまなコード混在言語を処理し理解できる要約アルゴリズムが不可欠です。近年、大規模言語モデル(LLM)は、要約を含むNLPタスクにおいて卓越した性能を示しています。LLMは、元のテキストを言い換えることで抽象的要約を本質的に生成します。一方で、LLMによる抽出的要約――つまり、元のテキストから特定の部分集合を選択することで要約を生成すること――は、現時点ではほとんど研究されていません。さらに、LLMには限られたコンテキストウィンドウのサイズがあり、一度に処理できるデータ量が制約されます。これらの課題に対して本研究では、LaMSUMを提案します。LaMSUMは、要約と異なる投票手法を組み合わせた新しい多層(multi-level)フレームワークであり、LLMを用いて大量の事案報告のコレクションから抽出的要約を生成します。4種類の代表的なLLM(Llama、Mistral、Claude、GPT-4o)を用いた大規模な評価の結果、LaMSUMは最先端の抽出的要約手法を上回ることが示されました。全体として、本研究はLLMによる抽出的要約を実現するための最初期の試みの一つであり、包括的な概要を提供し、正当な根拠のない嫌がらせを最小化するための効果的な方針を関係者が策定できるようにすることで、関係者を支援する可能性があります。
LaMSUM:LLMに導かれた抽出型要約で、ハラスメント被害の声を増幅するユーザーのインシデント報告の要約
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、原文を言い換える抽象的要約だけでなく、重要な抜粋を選び出す抽出型要約をLLMで生成する「LaMSUM」を提案しています。
- 市民が報告する性的ハラスメントの大量データを対象に、LLMのコンテキスト長の制約やコードミックス言語への対応といった実務上の課題を意識して設計されています。
- LaMSUMは、要約に加えて複数の投票手法を組み合わせることで、大量の報告群に対して抽出する箇所の質と信頼性を高めようとしています。
- Llama、Mistral、Claude、GPT-4oの4種類の代表的LLMを用いた評価の結果、LaMSUMは既存の最先端の抽出型要約手法を上回ると報告されています。
- この研究は、関係者が事件の全体像を素早く把握し、望まれないハラスメントを減らすためのより良い政策立案につなげることを目指しています。



