SynSym:精神症状識別のための合成データ生成フレームワーク

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SynSymは、ソーシャルメディアのテキストから精神症状を識別するために、症状レベルの大規模データセットを生成することを目的とした合成データ生成フレームワークである。
  • LLMを用いて、症状をサブコンセプトへ拡張し、さまざまな症状表現を生成し、臨床における併発パターンに導かれて現実的な複数症状の投稿を構成することで、カバレッジと言語的多様性を高める。
  • 本フレームワークは、この領域における主要なデータセットのボトルネック、すなわち高コストな専門家によるラベリングや、モデルの汎化性能を低下させる一貫性のない注釈ガイドラインに対処することを目標としている。
  • 気分(抑うつ)症状表現に関する3つのベンチマークデータセットでの実験では、SynSymのみの合成データで訓練したモデルが、実データで訓練したモデルと同等の性能を達成し、さらに実データでの追加ファインチューニングにより向上することが示された。
  • SynSymは、現実の注釈が限られている場合に、臨床的に関連性のある現実的な訓練サンプルを得るための、実用的な代替ソースとして位置づけられている。