オンラインの口論がエスカレートする仕組みをモデル化するために形式的な状態機械を構築した — IDDS 2.1

Reddit r/artificial / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事では、オンライン上の口論がどのようにエスカレートするかを、ランダムな挙動ではなく、予測可能な「アイデンティティに基づく状態遷移」によってモデル化したIDDS 2.1という形式的な状態機械を紹介する。
  • 2.1における重要な更新はD_flag修飾子であり、アイデンティティの活性化が、すでに意見の不一致が存在する場合に限ってエスカレーションを加速させる。その結果として、友好的な文脈と敵対的な文脈では力学が大きく異なる。
  • このモデルは、エスカレーションのシーケンス(中立 → 不一致 → アイデンティティ活性化 → パーソナライズ → 人身攻撃(ad hominem)→ 集団による攻撃(dogpile))を定義し、Moral Protective Framing(MPF)やAdversarial Seedingを含む仕組みを追加する。
  • 追加の改良として、Silence Bypass(ブロック/ミュートの効果はローカルのスレッドにのみ作用して終わる)や、Transient Dogpile Groups(D_flagが対象をまたいで持続する)を導入し、実際のプラットフォーム上のダイナミクスをよりよく反映しようとしている。
  • 著者は複数のプラットフォームと言語にまたがって検証を行ったことを報告しており、Playwrightスクレイパーに加えてML分類器を構築する計画がある。2.1のリリースに向けた関連論文へのリンクも共有している。

Redditで叩かれました(意図的に、調査目的で)。その後、観察結果を「IDDS — Identity-Driven Discourse Systems(アイデンティティ駆動のディスコース・システム)」という枠組みに整理しました。

核心となる洞察:エスカレーションはランダムではありません。アイデンティティ層のアクティベーションによって駆動される、予測可能な状態遷移に従います。2.1における重要な新機能はD_flag修飾子です。これは「アイデンティティ・アクティベーションがエスカレーションを加速するのは、すでに見解の相違が存在するときだけ」というものです。つまり、フレンドリーなスレッド(D_flag=0)で自分のアイデンティティを共有する人と、敵対的なスレッド(D_flag=1)で同じ開示をする人では、まったく異なる挙動になります。

状態:Neutral → Disagreement → Identity Activation → Personalization → Ad Hominem → Dogpile

2.1で新たに追加:

  • MPF(Moral Protective Framing:道徳的な保護フレーミング): 「子どもを守っている」といった倫理的なカバーとしてエスカレーションを隠す — 感情分析では検出されにくく、文脈上の状態認識が必要
  • Adversarial Seeding(敵対的シーディング): 最初の返信が来る前に、T=0でエスカレーションした状態で生まれるスレッド
  • Silence Bypass(沈黙のバイパス): ブロック/ミュートしてもローカルのスレッドだけが終了し、対立そのものは終わらない
  • Transient Dogpile Groups(一時的なドッグパイル・グループ): グループは標的が変わってもD_flagを完全にはリセットしない

Reddit、Threads、WhatsApp(英語/ポルトガル語)で検証済み。次はPlaywrightスクレイパー+ML分類器を構築します。

論文:https://github.com/JohannaWeb/Monarch/releases/tag/2.1.paper

submitted by /u/Inevitable_Back3319
[link] [comments]