普遍的な丁寧さはない:PLUMコーパスを用いた丁寧さがLLMに与える影響の言語横断・マルチモデル研究

arXiv cs.CL / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この研究は、PLUMコーパスを用いて、丁寧さと不丁寧さが異なるユーザープロンプトに対するLLMの応答を、3言語(英語・ヒンディー語・スペイン語)と5モデル(Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat、Llama 3)で検証します。
  • 22,500件のプロンプト—応答ペアを対象に、raw/ polite/ impoliteの3つの対話履歴と、8因子の評価枠組み(coherence、clarity、depth、responsiveness、context retention、toxicity、conciseness、readability)を通じて丁寧さを多面的に測定します。
  • 丁寧なプロンプトは平均応答品質を最大約11%向上させる一方、不丁寧なトーンは悪化させますが、その効果は普遍的ではなく、言語とモデルによって大きく変動します。
  • 口調の「最適解」は言語依存で、英語は丁寧または率直な表現が有利、ヒンディー語はへりくだりつつ間接的な表現が有利、スペイン語はより断定的なトーンが有利だと示唆されます。
  • 再現性と今後の検証のため、3言語×5カテゴリの人手検証済みプロンプトからなる公開コーパスPLUMを提供し、丁寧さ理論に基づく検証可能な仮説の追加分析も併せて示します。

Abstract

本論文では、丁寧さ・不丁寧さの程度が異なるユーザープロンプトに対する大規模言語モデル(LLM)の応答を探究する。Brown と Levinson による丁寧さ理論、および Culpeper による不丁寧さフレームワークを基盤として、3つの言語(英語, ヒンディー語, スペイン語)、5つのモデル(Gemini-Pro, GPT-4o Mini, Claude 3.7 Sonnet, DeepSeek-Chat, Llama 3)、およびユーザ間の3種類の対話履歴(生のまま, 丁寧, 不丁寧)にわたって実験を行った。サンプルは、さまざまな種類のプロンプトと応答の22,500組であり、8因子の評価フレームワークにより5段階の丁寧さで評価した:一貫性、明瞭さ、深さ、応答性、文脈保持、毒性、簡潔さ、読みやすさ。その結果、モデルの性能は口調、対話履歴、そして言語に強く影響されることが示された。丁寧なプロンプトは平均的な応答品質を最大で約11%向上させ、不丁寧な口調はそれを悪化させるが、これらの効果は言語やモデルをまたいで一貫しておらず、普遍的でもない。英語では丁寧または直接的な口調が最も良く働き、ヒンディー語ではへりくだった、かつ間接的な口調が適しており、スペイン語では断定的な口調が適している。モデル間では、Llama が口調への感受性が最も高く(範囲11.5%)、一方で GPT は敵対的な口調に対してより頑健である。これらの結果は、丁寧さが LLM の振る舞いに影響する定量化可能な計算変数であることを示しているが、その影響は普遍的というより、言語とモデルに依存する。再現性の支援と今後の研究のために、さらに PLUM(Politeness Levels in Utterances, Multilingual)も追加で公開する。これは3言語にわたる計1,500件の、人手によって検証されたプロンプトから成り、5つの丁寧さカテゴリに分類された公開コーパスであり、また丁寧さ理論から導かれ、データセットに対して経験的に評価した6つの反証可能な仮説に関する形式的な補足分析も提供する。