要旨:この研究は、ノイズの多いロシア語のソーシャルメディアにおける人間の価値観を検出する多段階分類フレームワークを提示し、750万件の公開テキスト投稿の無作為サンプルで検証した。Schwartzの基本的人間価値観理論を用い、スパムおよび非個人的コンテンツのフィルタリング、価値関連投稿および政治的関連投稿のターゲット選択、LLMに基づくアノテーション、マルチラベル分類を含む多段階のパイプラインを設計します。特に、LLMアノテーションおよびモデル予測の品質を人間の専門家と比較して検証することに注意を払う。人間の専門家のアノテーションを真の基準値としてではなく、独自の不確実性を持つ解釈的ベンチマークとして扱います。アノテーションの主観性を考慮するため、複数のLLM生成判断を、合意の程度の異なることを反映したソフトラベルに統合します。これらのラベルは、10種類の基本的価値それぞれの確率を予測する能力を持つトランスフォーマーベースのモデルを訓練するために使用される。最も高い性能を示したモデルはXLM RoBERTa largeで、保持したテストデータに対してF1マクロ0.83、F1が0.71を達成します。価値検出を複数の視点からの解釈タスクとみなし、専門家ラベル、GPTアノテーション、およびモデル予測が同じテキストを整合的に解釈するが必ずしも同一ではない読みを表す、という前提のもと、モデルは一般に人間の判断と一致するが、変化への開放性の価値領域を系統的に過大評価することを示します。実証的には、本研究はロシアのソーシャルネットワークにおける価値表現の顕著なパターンとそれらの共起を明らかにし、デジタル環境における文化的差異、コミュニケーションのフレーミング、および価値に基づく解釈といった広範な研究課題に貢献します。すべてのモデルは公開されています。
ノイズの多いロシア語ソーシャルメディアのテキストデータにおけるシュウォルツの基本的人間価値の検出: マルチステージ分類フレームワーク
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、ノイズの多いロシア語ソーシャルメディアのテキスト中でシュウォルツの基本的人間価値を検出するためのマルチステージ・パイプラインを提示しており、スパムフィルタリング、ターゲット投稿の選択、LLMベースの注釈付け、そしてトランスフォーマーを用いたマルチラベル分類を組み合わせている。
- 専門家の注釈を不確実性を伴う解釈のベンチマークとして扱い、複数のLLM判断をソフトラベルに統合して合意の程度の違いを反映させている。
- 最良モデルは XLM-RoBERTa large で、ホールドアウトテストデータに対して F1マクロが0.83、F1が0.71を達成し、基本的人間価値の検出の有効性と注釈主観性の取り扱いを示している。
- 本研究は、ソーシャルプラットフォーム上の価値表現における文化的差異の理解を深め、さらなる研究のためにすべてのモデルを公開している。