CNSocialDepress:うつ病リスク検出と構造化解析のための中国のソーシャルメディアデータセット

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、うつ病リスク検出と分析を目的とした中国語ソーシャルメディアのベンチマークデータセット「CNSocialDepress」を紹介する。
  • このデータセットには、233人のユーザーからの44,178件の投稿が含まれており、心理の専門家が10,306のうつ病関連セグメントに注釈を付けている。
  • 二値ラベルのみのリソースとは異なり、CNSocialDepressは、解釈可能できめ細かな信号分析のために、二値のリスクラベルに加えて、構造化された多次元の心理的属性も提供する。
  • 実験の結果、このデータセットは、構造化された心理プロファイリングやうつ病検出のための大規模言語モデルの微調整など、複数のNLPタスクを支援できることが示された。
  • 著者らは、CNSocialDepressを、中国語話者に合わせたメンタルヘルス応用に向けた実用的なリソースとして位置づけ、公的に利用可能なリソースの不足に対処している。

Abstract

抑うつは深刻な世界的な公衆衛生上の課題である一方、抑うつリスク検出のための、中国語で利用可能な公開リソースは依然として乏しく、そして主として二値分類に焦点が当てられている。これらの制約に対処するために、我々は中国のソーシャルメディアにおける抑うつリスク検出のためのベンチマークデータセットであるCNSocialDepressを公開する。本データセットには、233人のユーザからの44,178件の投稿が含まれており、心理の専門家が抑うつに関連する10,306のセグメントに注釈を付与している。CNSocialDepressは、解釈可能できめ細かな抑うつシグナルの分析を可能にする、構造化された多次元の心理的属性とともに、二値のリスクラベルを提供する。実験結果は、本データセットが、構造化された心理プロファイリングや、抑うつ検出のための大規模言語モデルの微調整を含む、幅広いNLPタスクにわたって有用であることを示している。包括的な評価により、本データセットの有効性と、抑うつリスク同定および心理分析における実践的価値が確認され、中国語話者の集団に合わせたメンタルヘルス応用に向けた洞察が得られる。