BIASEDTALES-ML：LLMが生成する物語における物語属性の分布を分析するための多言語データセット

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、約35万件のLLM生成による児童向け物語を、8つの類型・文化的に多様な言語で作成したマルチリンガルの大規模並列データセット「BiasedTales-ML」を提案します。
ジェネレータ–エクストラクタの構造化パイプラインと、多次元の分布分析フレームワークにより、言語・モデル・社会的条件ごとに物語属性がどのように変化するかを比較します。
生成される物語パターンには大きな言語間のばらつきがあり、英語で観測される分布や挙動が他言語では必ずしも再現されないこと、とりわけ低資源言語でその傾向が強いことを示します。
登場人物の役割、場面設定、主題の強調といった反復的な構造パターンが見られる一方で、それらは言語文脈によって異なって現れることから、英語中心の評価の限界を明らかにします。
著者らは、今後の多言語の物語分析・評価研究を支えるため、データセット、コード、対話型可視化ツールを公開します。

要旨: 大規模言語モデル（LLM）は、子ども向けの物語を含むナラティブ（物語）コンテンツの生成にますます用いられるようになっており、社会的・文化的学習において重要な役割を果たしています。AIの安全性とアライメントへの関心が高まっているにもかかわらず、既存の評価の多くは主として英語に焦点を当てているため、アライメントされた振る舞いの越言語的な汎化は十分に検討されていません。本研究では、フル・パーミュテーションのプロンプト設計を用いて、類型論的および文化的に多様な8言語にわたって生成された約350,000本の子ども向け物語からなる大規模並列コーパスBiasedTales-MLを導入します。さらに、物語の属性が言語、モデル、そして社会的条件によってどのように変化するかを調べるための、構造化されたジェネレータ・エクストラクタのパイプラインと、多次元の分布分析フレームワークを提案します。分析の結果、物語生成のパターンには言語間で大きなばらつきがあることが明らかになり、英語で観測される分布が、他の言語、とりわけ低リソース環境では、必ずしも同様の特徴を示さないことを示しています。物語のレベルでは、登場人物の役割、舞台設定、そして主題的な強調に関する再帰的な構造パターンを特定でき、これらは言語的文脈によって異なる形で現れます。これらの知見は、多言語環境における社会的に根ざした物語生成を特徴づけるうえで、英語中心の評価には限界があることを浮き彫りにします。本データセット、コード、および対話的な可視化ツールを公開し、多言語の物語分析と評価に関する今後の研究を支援します。