要旨: 本研究では、南部アメリカ英語(AE)、インド英語(IE)、コードスイッチしたヒンディー語-英語(Code-Switched Hindi-English)という方言間でプロンプトが異なる状況において、LLM(大規模言語モデル)によるレストランおよび商品推薦における言語バイアスを調査する。データとしては、Yelp Openデータセット(Yelp Inc., 2023)と、Walmartの商品レビューのデータセット(PromptCloud,2020)を用いる。LLMに与えるプロンプトには、料理の種類と商品カテゴリによってバランスを取ったレストラン名および商品名のリストを追加し、その上でコールドスタート設定において、これらのリストの中から各方言別プロンプトごとに上位20件のレストランおよび商品推薦を選択するように、LLMをゼロショットでプロンプトする。一般化を高めるために、20の異なるシード(seed)にわたって異なるリストのサンプルを用いてLLMにプロンプトし、各シード、各質問/プロンプト、および各LLMモデルごとに、料理タイプごと・カテゴリごとの応答件数を集計する。さらに、各モデルファミリおよびトピック(レストラン/商品)ごとに、従属変数として集計した応答件数を用いた混合効果回帰モデルを実行し、固定効果に対して尤度比検定を行ったうえで、推定限界平均(estimated marginal means)の差に対する事後(post-hoc)のペアワイズ検定を実施し、モデルの大きさおよび方言タイプによる推薦件数のグループ間差を調べる。結果は、テストした各モデルにわたって、選択されるレストランの種類に対して方言が影響していることを示し、とくにmistral-small-3.1モデルおよび、テストしたllama-3.1ファミリの両方のモデルで、インド英語およびコードスイッチされたプロンプトへの感度が高いことが確認された。商品推薦に関しては、llama-3.1-70Bモデルが、7つのカテゴリのうち4つにおいてコードスイッチされたプロンプトに特に敏感であり、またモデルが大きい場合はインド英語プロンプトとコードスイッチプロンプトを用いたときに「美容」と「家庭用品」のカテゴリの推薦がより多く見られ、モデルが小さい場合はそれぞれ対応する条件で同様に示された。モデル規模に基づく差異についての大きな(包括的な)傾向は見られず、方言の種類に応じてモデルサイズごとに異なる推薦が導かれることが分かった。
LLMベースのレコメンドにおける言語的バイアスの調査
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この研究は、南部アメリカ英語、インド英語、ヒンディー・英語のコードスイッチ方言といった方言の違いが、コールドスタート設定でのLLMベースのレストラン/商品レコメンドに与える影響を調べます。
- Yelp Openデータセットとウォルマートのレビューに関するデータセットを用い、料理ジャンルや商品カテゴリ別にバランスさせた名称リストからLLMに上位20件を選ばせる形でプロンプトを作成します。
- 20のシードでプロンプトのサンプルを変えつつ、推薦件数を集計し、混合効果回帰と尤度比検定によって方言とモデルサイズの影響を定量化します。
- 結果として、方言が選ばれるレストランの種類に影響し、Mistral-small-3.1およびLlama-3.1系モデルでは、インド英語やコードスイッチ方言への感度が高いことが示されます。
- 商品レコメンドでは、Llama-3.1-70Bがコードスイッチプロンプトに特に敏感で、7カテゴリ中4カテゴリで顕著な変化が見られます。また、インド英語やコードスイッチにより、特定カテゴリ(例:ビューティー/ホーム)の推薦がモデル規模に応じて増えるなどの違いが観察されます。


