境界を越える語素: アラビア語トークナイザーとLLMにおけるルート-パターン形態の評価

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLMおよびトークナイザーがアラビア語の語根-パターン形態素をどのように扱うかを調査し、モデルが真の形態構造を捉えているのか、それとも表面的な記憶に依存しているのかを検証する。
金標準のセグメンテーションと比較して、7つのアラビア語中心および多言語対応のLLMにおける形態忠実性を評価する。
生産的な語根-パターン生成を評価する新しいテストセットを導入し、トークナイザーの形態対応が形態生成にとって必須でも十分条件でもないことを発見した。
本研究の結果は、下流モデルの性能における形態的トークン化の役割に疑問を投げかけ、形態的に豊かな言語におけるトークナイザー設計と評価に示唆を与える。

要旨: 本研究は、巨大言語モデル（LLMs）とそのトークン化方式がアラビア語の語根-パターン形態をどれだけ効果的に表現・生成できるかを調査し、それらが真の形態構造を捉えているのか、それとも表面的な記憶に頼っているのかを検証する。アラビア語の形態体系は、LLMsが複雑で非連結的な形態をどのように扱うか、そしてトークン化の選択がこのプロセスにどのように影響するかを分析するうえで、豊富な検証基盤を提供する。我々の研究は、ゴールド標準のセグメンテーションに対するアラビア語および多言語トークナイザー間の形態忠実性の評価から始まり、新たに開発されたテストセットを用いた語根-パターン生成の生産的なパフォーマンスに関するLLMの性能分析に続く。我々の七つのアラビア語中心および多言語のLLMとそれぞれのトークナイザーにわたる所見は、トークナイザーの形態的整合性が形態生成に必須でも十分でもないことを示しており、下流の性能における形態的トークナイズの役割を疑問視させる。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

境界を越える語素: アラビア語トークナイザーとLLMにおけるルート-パターン形態の評価

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer