RespondeoQA：ラテン語・英語のバイリンガル質問応答ベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、ラテン語と英語のバイリンガル質問応答および翻訳ベンチマーク「RespondeoQA」を提案しており、約7,800件の質問-回答ペアを収録しています。
質問は、試験、クイズボウル形式の雑学、1800年代から現在までの教科書など、ラテン語教育用の教材から収集され、自動抽出・クリーニングと手動レビューにより整備されています。
ベンチマークには、知識・技能ベースの問題、多段推論、制約付き翻訳、混在言語のペアなど、さまざまなタスクが含まれます。
LLM3モデル（LLaMa 3、Qwen QwQ、OpenAIのo3-mini）を評価した結果、いずれも概して技能志向の質問での成績が低く、推論モデルはスキャンションや文学的デバイスの課題でより良い傾向が見られます。
データセットは公開されており、著者らはその作成プロセスを他言語のベンチマークにも適用できると述べています。

要旨: ラテン語と英語のバイリンガル環境における質問応答と翻訳のためのベンチマークデータセットを導入します。約7,800件の質問—回答ペアを含みます。質問はラテン語の教育的資料に由来しており、試験、クイズボウル形式の雑学、そして19世紀から現在に至る教科書などが含まれます。自動抽出、クリーニング、そして手動レビューの後、このデータセットは多様な質問タイプをカバーします。具体的には、知識・技能に基づくもの、マルチホップ推論、制約付き翻訳、そして言語が混在するペアです。私たちの知る限り、ラテン語を中心にしたQAベンチマークとしてはこれが初めてです。事例研究として、3つの大規模言語モデル――LLaMa 3、Qwen QwQ、OpenAIのo3-mini――を評価し、いずれも技能志向の質問ではより良くない（劣る）ことを見出します。推論モデルはスカンション（韻律の脚の数や配置）や文学的デバイスのタスクではより良い成績を示すものの、全体としての改善は限定的です。QwQはラテン語で出題された質問においてわずかにより良い結果を示しますが、LLaMa3とo3-miniは課題への依存度が高いです。このデータセットは、専門的な言語・文化領域においてモデルの能力を評価するための新しいリソースを提供し、作成プロセスは他の言語にも容易に適用できます。データセットは以下で利用可能です: https://github.com/slanglab/RespondeoQA