注釈付きアイテム・リポジトリの作成による読解問題の項目困難度の予測

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト内容と報告された正答率（p値）データから、読解問題の項目応答理論（IRT）困難度を予測することを提案する。
2018〜2023年の学年3〜8にわたる米国の標準化テストの読解パッセージおよび学生の回答データを用いて、言語的・パッセージ／テスト・文脈のメタデータを付与した注釈付きリポジトリを構築する。
これらの特徴量を用いたペナル化回帰モデルは、RMSE 0.59を達成し、ベースラインのRMSE 0.92に対して改善し、真の困難度と予測困難度の相関は0.77となる。
LLM由来モデル（ModernBERT、BERT、LLaMA）の埋め込みを追加しても改善はわずかであり、言語特徴のみ、またはLLM埋め込みのみでも、結合したアプローチと同程度の性能を示し得る。
著者らは、この困難度予測モデルが読解問題をフィルタリングし分類するために利用でき、より幅広い利害関係者のためにモデルを公開する計画だとしている。

要旨: アイテムの難易度を、そのテキスト内容に基づいて予測することは、重要な関心領域である。本論文では、元々報告されていたアイテムのp値（正答率の割合）データから、IRTベースの難易度を復元するという関連問題に焦点を当てる。われわれは、2018-23年のニューヨーク州およびテキサス州の米国の標準化テストにおける学年3-8の、リーディングパッセージのリポジトリと生徒データを用いて、このアイテム難易度をモデル化する。このリポジトリには、(1) 読解アイテムの言語的特徴、(2) パッセージのテスト特徴、(3) 文脈特徴に関するメタデータが付与されている。これらすべての特徴を用いたペナルティ付き回帰予測モデルは、ベースラインRMSEが0.92であるのに対しRMSE 0.59でアイテム難易度を予測でき、真の難易度と予測された難易度の間の相関は0.77である。さらに、LLMからの埋め込み（ModernBERT、BERT、そしてLlAMA）によってこれらの特徴を補完すると、アイテム難易度の予測はわずかに改善する。モデルがアイテムの言語的特徴のみ、あるいはLLM埋め込みのみを使う場合、予測性能は同程度であり、これらの特徴カテゴリのうち1種類だけで十分である可能性が示唆される。このアイテム難易度予測モデルは、読解アイテムをフィルタリングし分類するために使用でき、他の利害関係者による利用のために公開される予定である。

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

Dev.to

詰まったときに自分でツールを書き起こせるAIエージェントを作った

Dev.to

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

Dev.to

[P] フェデレーテッド・敵対的学習

Reddit r/MachineLearning

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

Towards Data Science

注釈付きアイテム・リポジトリの作成による読解問題の項目困難度の予測

要点

関連記事

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

詰まったときに自分でツールを書き起こせるAIエージェントを作った

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

[P] フェデレーテッド・敵対的学習

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer