SectEval: 大規模言語モデルの潜在的宗派傾向を評価する

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は SectEval を紹介する。英語とヒンディー語の88問から成るベンチマークで、LLM がスンニ派とシーア派のバイアスにどう対処するかを評価する。
独自およびオープンウェイトのモデルを含む 15 のトップ LLM を評価し、言語依存によるバイアスの不一致を示した。
英語では DeepSeek-v3 や GPT-4o のようなモデルがシーア派の回答を優先する一方、ヒンディー語ではスンニ派へ傾くなど、言語によるバイアスの反転が見られた。
本研究はまた、位置情報の影響を示し、Claude-3.5 は回答をイランまたはサウジアラビアへ合わせる傾向があるのに対し、小型のヒンディー語モデルは場所に関係なくスンニ派に固執する傾向を示した。データセットは GitHub で公開されている。

概要: 大型言語モデル（LLMs）は宗教知識の人気の源となっている中、それが異なるグループを公正に扱っているかを知ることが重要です。本研究は、イスラム教の二大派閥であるスンニ派とシーア派の差異をLLMsがどのように扱うかを測定した、初めての研究です。SectEvalと呼ばれるテストを英語とヒンディー語の両方で提供しており、88問から成り、15のトップLLMモデル（商用・オープンウェイトの両方）における偏りを検証します。結果は、言語に基づく大きな不一致を示しています。英語では、多くの強力なモデル DeepSeek-v3 および GPT-4o がシーア派の回答を好む傾向がありました。しかし、同じ質問をヒンディー語で正確に問うと、これらのモデルはスンニ派の回答を好むように切り替わりました。これは、言語を変えるだけでユーザーが全く異なる宗教的アドバイスを受ける可能性があることを意味します。また、モデルが場所（所在地）にどう反応するかも調べました。高度なモデル Claude-3.5 は、ユーザーの出身国に合わせて回答を変更し、イラン出身のユーザーにはシーア派の回答を、サウジアラビア出身のユーザーにはスンニ派の回答を返すようになりました。対照的に、より小さなモデル（特にヒンディー語では）ユーザーの場所を無視し、スンニ派の見解に固執しました。これらの知見は、AIが中立ではないことを示しています。AIの宗教的「真実」は、あなたが話す言語とあなたが出身とする国によって変わります。データセットは https://github.com/secteval/SectEval/ で利用できます。
返却形式: {"translated": "翻訳されたHTML"}

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

SectEval: 大規模言語モデルの潜在的宗派傾向を評価する

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer