中国語の皮肉検出における動的な言語パターンモデリングのためのGANおよびLLM駆動データ拡張フレームワーク

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、中国語の皮肉検出に関する既存研究の限界、特に小規模データセットと、ユーザー固有の言語表現および感情表現パターンをモデル化できていない点に焦点を当てる。
  • 提案手法では、GANおよびLLMに駆動されたデータ拡張パイプラインを用い、Sina Weiboのデータを収集し、GANを訓練し、GPT-3.5ベースの方法によって「SinaSarc」と呼ばれる大規模データセットを合成する。
  • SinaSarcは、対象コメントや文脈だけでなく、ユーザーの過去の行動も含めることで、動的かつ長期的なパターン学習を支援する設計となっている。
  • 著者らは、特にユーザーの過去の行動を取り入れることで、暗黙的な皮肉の手がかりをより適切に捉えるため、BERTを多次元入力で拡張する。
  • 実験結果では、最先端の性能が報告されており、F1スコアは非皮肉(0.9138)、皮肉(0.9151)であり、従来手法を上回る。

Abstract

憎ましや揶揄(サーカズム)は、誇張・皮肉・比較などによって、特定の個人や状況の特徴を批判的に表現したり、強調したりする修辞的手段である。中国語のサーカズム検出に関する既存手法は、データセットの規模が限られていることや構築コストが高いことによって制約されており、主にテキストの特徴に焦点を当てるため、意見や感情がどのように表現されるかを形作るユーザー固有の言語パターンを見落としている。本論文では、生成的敵対ネットワーク(GAN)と大規模言語モデル(LLM)駆動のデータ拡張フレームワークを提案し、ユーザーの言語パターンを動的にモデル化することで、中国語のサーカズム検出を強化する。まず、Sina Weiboのさまざまな話題から生データを収集する。次に、これらのデータ上でGANを学習し、GPT-3.5に基づくデータ拡張手法を適用して、SinaSarcと名付けられた拡張サーカスティック(皮肉的)コメントのデータセットを合成する。このデータセットには、対象コメント、文脈情報、ユーザーの過去の行動履歴が含まれる。最後に、BERTアーキテクチャを拡張して多次元情報、特にユーザーの過去の行動履歴を取り込むことで、コメント内の動的な言語パターンを捉え、暗黙のサーカズムの手がかりを明らかにできるようにする。実験結果は、提案手法の有効性を示している。具体的には、我々のモデルは、非サーカスティック(非皮肉)カテゴリとサーカスティックカテゴリの両方で最高のF1スコアを達成し、それぞれ0.9138と0.9151であり、既存のあらゆる最先端(SOTA)アプローチを上回る。本研究は、中国語のサーカズム検出において、ユーザーの長期的な言語パターンを動的にモデル化するための新しいフレームワークを提示し、この分野におけるデータセット構築と方法論の発展の双方に貢献する。