RAGにおけるイデオロギー的言説の影響:COVID-19治療を題材としたケーススタディ

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、COVID-19治療に関する1,117件の学術論文コーパスを用いたRetrieval-Augmented Generation(RAG)フレームワーク内で、取得されたイデオロギー的テキストが大規模言語モデル(LLMs)の出力にどのように影響するかを検討する。
  • 外部テキスト内のイデオロギーを特定するために、Lexical Multidimensional Analysis(LMDA)に基づくコーパス言語学的アプローチを導入し、LMDA由来の説明を含むプロンプトと含まないプロンプトの両方を適用してLLMの応答を引き出す。
  • 結果は、LLMの出力が取得されたテキストに存在するイデオロギーとより一致することを示し、強化されたプロンプトの使用によってこの一致がさらに高まることを示しており、RAGシステムにおけるイデオロギー的バイアスの伝播の可能性を浮き彫りにしている。
  • 本研究は、イデオロギーの操作リスクを論じ、RAG内のイデオロギー的ディスコースを特定し緩和する必要性を強調して、AIモデルの偏りや操作を低減することを目指す。

要約: 本論文は、取得された思想的テキストが大規模言語モデル(LLMs)の出力に与える影響を調査する。LLMsにおけるイデオロギーの理解への関心は近年高まっている一方で、Retrieval-Augmented Generation (RAG) の文脈でこの問題に十分な注意が払われていない。このギャップを埋めるため、COVID-19治療に関するイデオロギーが含まれるテキストに基づく外部知識ソースを設計する。このコーパスは、病気に対して物議を醸す治療法と支持されている治療法に関する議論を表す1,117件の学術論文に基づく。コーパス言語学の枠組みとして、Lexical Multidimensional Analysis(LMDA)に基づくコーパス内のイデオロギーを特定する枠組みを提案する。LLMsには、3つの識別されたイデロギー的次元に基づく質問へ回答する任務を課し、2種類の文脈プロンプトを採用する。最初のプロンプトはユーザーの質問とイデオロギー・テキストから成り、2つ目は質問、イデオロギー・テキスト、LMDAの説明を含む。参照イデオロギー・テキストとLLMsの回答とのイデオロギー的整合性は、語彙表現と意味表現のコサイン類似度を用いて評価される。結果は、イデオロギーが含まれる取得テキストに基づくLLMsの回答が、外部知識で遭遇するイデオロギーとより一致することを示しており、強化されたプロンプトがLLMsの出力にさらなる影響を及ぼす。我々の知見は、RAGフレームワーク内でイデオロギー的言説を識別することの重要性を強調し、予期せぬイデオロギー的偏りだけでなく、このようなモデルを悪意をもって操作するリスクを軽減することを目的とする。返却形式: {"translated": "翻訳されたHTML"}

広告