JTON:大規模言語モデル向けのZen Gridタブラーエンコーディングを備えた、トークン効率の高いJSONスーパーセット

arXiv cs.AI / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、タブラー配列において反復する列キー名を、「Zen Grid」エンコーディング方式により排除してLLMのトークンオーバーヘッドを削減する、厳密なJSONスーパーセットであるJTONを紹介する。
  • 7つの実在のドメインにわたり、Zen GridはJSON compactに比べてトークン数を15〜60%削減する(平均28.5%、bare_strings使用時は32%)。
  • LLMの評価では、10モデルにわたる理解テストでわずかに精度が向上し(+0.3パーセンテージポイント)、生成テストではfew-shotおよびzero-shotの両方で文法的妥当性が100%となった。
  • 著者らは、SIMDで加速されたパースを特徴とする公開のRust/PyO3リファレンス実装(Pythonのjsonモジュールより約1.4倍高速と報告)に加え、大規模なテストスイートおよび実験データを公開している。