大規模言語モデルを用いたマルチモーダルエッセイ採点の意思決定レベル序数モデリング

arXiv cs.CL / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、意思決定レベルの序数モデリング（DLOM）を提案する。DLOMはAES採点を明示的な序数決定として扱い、言語モデルのヘッドを用いて事前に定義されたスコアトークンのスコア別ロジットを抽出することで、マルチモーダルAESにおける自動回帰生成の限界に対処する。
マルチモーダルAESのためのDLOM-GFを追加する。これは、テキストと視覚的スコアロジットを適応的に結合するゲート付き融合モジュールである。また、テキストのみのAESのためのDLOM-DAには、序数距離を反映する距離認識正則化項を導入する。
マルチモーダルEssayJudgeデータセットでの実験は、DLOMが生成ベースのSFTベースラインを評価項目全体で上回ることを示し、モダリティの関連性がヘテロジニアスな場合にはDLOM-GFがさらなる改善を提供する。ASAP/ASAP++ベンチマークでは、視覚情報なしでもDLOMは有効であり、DLOM-DAは性能をさらに向上させ、強力なベースラインを上回る。
本研究はスコア空間での直接的な最適化を可能にし、LLMベースのAESにおける序数ルーブリック採点の、マルチモーダルおよびテキストのみの設定の両方において、より解釈性が高く堅牢な枠組みを提供する。

要約:
自動エッセイ採点（AES）は、各エッセイについて複数のルーブリックで定義された特性スコアを予測します。各特性は順序付きの離散的評価尺度に従います。ほとんどのLLMベースのAES手法は、採点を自己回帰トークン生成として扱い、デコードと解析を通じて最終スコアを得るため、意思決定を暗黙のものにします。この定式化は、視覚入力の有用性がエッセイや特性ごとに異なる多モーダルAESにおいて、特に敏感です。これらの限界に対処するため、決定レベルの階層的順序モデリング（DLOM）を提案します。これは、事前に定義されたスコアトークン上のスコア別ロジットを抽出するために言語モデルのヘッドを再利用することで、採点を明示的な順序決定とし、スコア空間での直接的な最適化と解析を可能にします。多模态AESでは、DLOM-GFがゲート付き融合モジュールを導入し、テキストベースとマルチモーダルのスコアロジットを適応的に結合します。テキストのみのAESでは、DLOM-DAが距離感知正則化項を追加して、序数間の距離をより適切に反映します。多模态 EssayJudge データセットでの実験は、DLOMが生成ベースのSFTベースラインをスコア特性全体で上回ることを示し、モダリティの関連性が異なる場合にはDLOM-GFがさらなる改善をもたらします。テキストのみの ASAP/ASAP++ ベンチマークでは、DLOMは視覚入力なしでも有効であり、DLOM-DAが性能をさらに向上させ、強力な代表的ベースラインを上回ります。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

大規模言語モデルを用いたマルチモーダルエッセイ採点の意思決定レベル序数モデリング

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer