危機関連の合成ツイートデータセットのためのエージェント主導ワークフローの設計と評価

arXiv cs.CL / 2026/3/17

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本論文は、実データへのアクセスとアノテーションの制約を克服するための、危機関連の合成ツイートデータセット生成に関するエージェント主導のワークフローを提示している。
  • ターゲット特性を条件として設定した合成ツイートを用い、適合性チェックで評価し、以後の反復を通じて洗練させていくという反復プロセスを説明している。
  • 地震後の損傷評価に関する事例研究は、合成データが所在地や損傷レベルといったラベルをエンコードできることを示している。
  • 著者らは、これらの合成データセットが、地理的位置推定や損傷予測といったタスクに対して、さまざまな危機状況でAIシステムを評価するための、柔軟でスケーラブルな代替手段を提供すると主張している。

要約: Twitter(現在はX)は、危機時の状況認識のためのソーシャルメディアデータの重要な源となっています。危機情報学の研究は、危機に関連するさまざまなタスクのAIシステムを開発・評価するために、Twitterのツイートを広く利用してきました。これにより、被害評価を支援します。 しかし、Twitterのデータアクセス方針の最近の変更により、危機に関連する実データのツイートデータセットを作成することがますます難しくなっています。さらに、既存のキュレーション済みツイートデータセットは、特定の文脈における過去の危機イベントに限定されており、大規模にアノテーションするにはコストがかかります。これらの制約は、危機情報学で用いられるAIシステムの開発と評価を制約します。この制約に対処するために、危機関連の合成ツイートデータセットを生成するエージェント型ワークフローを導入します。このワークフローは、予め指定されたターゲット特性を条件として合成ツイートを反復的に生成し、事前に定義されたコンプライアンスチェックで評価し、次の反復でそれを洗練するための構造化されたフィードバックを組み込みます。ケーススタディとして、地震後の損害評価に関連する合成ツイートデータセットを生成するためにこのワークフローを適用します。このワークフローが、位置情報と損害レベルのターゲットラベルを捉えた合成ツイートを生成できることを示します。さらに、得られた合成ツイートデータセットを、ジオロケーション(地理的位置推定)や損害レベル予測といった損害評価タスクでAIシステムを評価するために使用できることを示します。我々の結果は、このワークフローが実世界のツイートデータのキュレーションに対する柔軟でスケーラブルな代替手段を提供し、多様な危機イベント、社会的文脈、および危機情報学アプリケーション全体で系統的に合成ソーシャルメディアデータを生成できることを示しています。

返却形式: {"translated": "翻訳されたHTML"}