自殺念慮を含むメンタルヘルス検出のためのReddit由来データセット・ベンチマーク群

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、NLPによるメンタルヘルス検出を目的に、Reddit由来の4つのデータセットから成る統一ベンチマーク群を提示しており、自殺念慮、一般メンタル障害（2値）、双極性障害、多クラスのメンタル障害分類を対象にしています。
データセットは、明確なアノテーション指針、言語面での入念な検査、そして人手による検証を通じて品質と再現性の向上を図っています。
すべてのデータセットで、ラベルの信頼性を裏づけるため、インターアノテータ一致度がベースライン（0.8）を常に上回ると報告されています。
先行研究で、Transformerモデルと文脈化された再帰型モデルの双方で高い性能（F1およそ93〜99%）が確認されており、ベンチマークの有効性が示されています。
複数タスクを補完関係として統合し、広くアクセス可能な資源として提供することで、タスク横断の比較、マルチタスク学習、より公正なモデル比較が可能になります。