JTON:大規模言語モデル向けのZen Gridタブラーエンコーディングを備えた、トークン効率の高いJSONスーパーセット
arXiv cs.AI / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文では、タブラー配列において反復する列キー名を、「Zen Grid」エンコーディング方式により排除してLLMのトークンオーバーヘッドを削減する、厳密なJSONスーパーセットであるJTONを紹介する。
- 7つの実在のドメインにわたり、Zen GridはJSON compactに比べてトークン数を15〜60%削減する(平均28.5%、bare_strings使用時は32%)。
- LLMの評価では、10モデルにわたる理解テストでわずかに精度が向上し(+0.3パーセンテージポイント)、生成テストではfew-shotおよびzero-shotの両方で文法的妥当性が100%となった。
- 著者らは、SIMDで加速されたパースを特徴とする公開のRust/PyO3リファレンス実装(Pythonのjsonモジュールより約1.4倍高速と報告)に加え、大規模なテストスイートおよび実験データを公開している。



