中国語の皮肉検出における動的な言語パターンモデリングのためのGANおよびLLM駆動データ拡張フレームワーク
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、中国語の皮肉検出に関する既存研究の限界、特に小規模データセットと、ユーザー固有の言語表現および感情表現パターンをモデル化できていない点に焦点を当てる。
- 提案手法では、GANおよびLLMに駆動されたデータ拡張パイプラインを用い、Sina Weiboのデータを収集し、GANを訓練し、GPT-3.5ベースの方法によって「SinaSarc」と呼ばれる大規模データセットを合成する。
- SinaSarcは、対象コメントや文脈だけでなく、ユーザーの過去の行動も含めることで、動的かつ長期的なパターン学習を支援する設計となっている。
- 著者らは、特にユーザーの過去の行動を取り入れることで、暗黙的な皮肉の手がかりをより適切に捉えるため、BERTを多次元入力で拡張する。
- 実験結果では、最先端の性能が報告されており、F1スコアは非皮肉(0.9138)、皮肉(0.9151)であり、従来手法を上回る。




