要旨: 本論文は、アラビア語における特性特異的自動採点(AES)のための新しいプロンプト設計フレームワークを、ゼロショットおよびファショット設定の下で大規模言語モデル(LLMs)を活用して提示します。
アラビア語用のスケーラブルで言語学的に情報を反映したAESツールの不足に対処するため、組織性、語彙、展開、文体などの異なる言語能力の特性を評価するLLMsを導く、標準・ハイブリッド・ルーブリック指向の三層プロンプト戦略を導入します。
ハイブリッドアプローチは、特性専門の評価者によるマルチエージェント評価を模擬し、ルーブリック指向の手法は採点済みの標本を取り入れてモデルの整合性を高めます。
ゼロショットおよびファショット設定では、特性レベルの注釈を備えた最初の公開利用可能なアラビア語AESリソースであるQAESデータセット上で、8つのLLMを評価します。
Quadratic Weighted Kappa(QWK)および信頼区間を用いた実験結果は、Fanar-1-9B-Instruct がゼロショットおよびファショットの両方のプロンプティングで最も高い特性レベルの一致度を達成したことを示します(QWK = 0.28、CI = 0.41)。ルーブリック指向のプロンプティングは、すべての特性とモデルにおいて一貫した利得をもたらします。
Development(展開)と Style(文体)といった談話レベルの特性が最も大きな改善を示しました。
これらの知見は、構造化されたプロンプティングが、モデル規模だけではなく、アラビア語における効果的なAESを実現することを確認しています。
本研究は、熟練度指向のアラビア語AESの最初の総合的なフレームワークを提示し、資源が限られた教育環境におけるスケーラブルな評価の基盤を築きます。
アラビア語エッセイ熟達度のための構造化プロンプティング:特性中心の評価アプローチ
arXiv cs.CL / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、ゼロショットおよび少数ショット設定の下で、標準型・ハイブリッド型・ルーブリック指向の3層プロンプティングフレームワークを導入し、アラビア語の特性別自動エッセイ採点(AES)をLLMsで実施する。
- アラビア語AESツールの不足という課題に対処し、構造化されたプロンプティングが、モデルサイズだけに依存するのではなく、組織性、語彙、展開、文体といった特性レベルの評価を可能にすることを示す。
- ハイブリッドアプローチは、特性専門の評価者によるマルチエージェント評価を模擬し、ルーブリック指向プロンプティングは、採点済みの例を用いて整合性を高める。QAESアラビア語データセットで8つのLLMを評価した。
- ルーブリック指向プロンプティングは、特性とモデル全体にわたり一貫した改善をもたらし、展開と文体で最大の改善を示す。Fanar-1-9B-Instructは、ゼロショットおよび少数ショット設定で最も高い特性レベルの一致度を達成した(QWK 0.28、CI 0.41)。
- 本研究は、熟達度志向のアラビア語AESにおける初の包括的なフレームワークを確立し、資源が乏しい教育現場におけるスケーラブルな評価の基盤を築く。