普遍的な丁寧さはない:PLUMコーパスを用いた丁寧さがLLMに与える影響の言語横断・マルチモデル研究
arXiv cs.CL / 2026/4/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この研究は、PLUMコーパスを用いて、丁寧さと不丁寧さが異なるユーザープロンプトに対するLLMの応答を、3言語(英語・ヒンディー語・スペイン語)と5モデル(Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat、Llama 3)で検証します。
- 22,500件のプロンプト—応答ペアを対象に、raw/ polite/ impoliteの3つの対話履歴と、8因子の評価枠組み(coherence、clarity、depth、responsiveness、context retention、toxicity、conciseness、readability)を通じて丁寧さを多面的に測定します。
- 丁寧なプロンプトは平均応答品質を最大約11%向上させる一方、不丁寧なトーンは悪化させますが、その効果は普遍的ではなく、言語とモデルによって大きく変動します。
- 口調の「最適解」は言語依存で、英語は丁寧または率直な表現が有利、ヒンディー語はへりくだりつつ間接的な表現が有利、スペイン語はより断定的なトーンが有利だと示唆されます。
- 再現性と今後の検証のため、3言語×5カテゴリの人手検証済みプロンプトからなる公開コーパスPLUMを提供し、丁寧さ理論に基づく検証可能な仮説の追加分析も併せて示します。


