大規模言語モデルにおける時間推論を本当に支配するのはトークン化か、それとも時間の表現か?

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MultiTempBench は、日付演算、タイムゾーン変換、時間的関係の抽出を含む多言語の時間推論ベンチマークとして紹介され、5言語と複数の暦規約に跨いで適用される。
  • 本研究は20の大規模言語モデルを評価し、時間推論表現を研究するために、幾何学的プロービング分析と併せて、多言語日付断片化比率(mDFR)を提案する。
  • 時間的アーティファクトのトークン化品質はリソース依存のボトルネックとなり、断片化は低リソース言語や希少な暦における精度を低下させる。一方で高リソース環境では桁レベルの分割に対してより頑健である。
  • 高資源言語では時間的線形性が時間推論の最も強い予測因子として現れ、低資源言語では断片化がより強い予測因子となる。資源レベルによってモデリングの優先順位が異なることを示唆している。
  • 著者らは、多言語の時間推論ベンチマークの再現性とさらなる研究を可能にするため、GitHubにコードを提供している。

要旨: 私たちは MultiTempBench を提示します。これは三つのタスク、日付算術、時刻帯変換、そして暦関連の抽出を跨ぐ多言語的時間推論ベンチマークで、五つの言語(英語、ドイツ語、中国語、アラビア語、ハウサ語)と複数の暦表記法(グレゴリオ暦、ヒジュラ暦、中国旧暦)にまたがります。 MultiTempBench には 15,000 の例が含まれており、厳選された英語の質問 750 問を翻訳して作成し、それぞれを制御された日付形式のバリアントへ展開しています。 私たちは 20個のLLMを評価し、人間の重大度評価で校正された多言語日付断片化比率(mDFR)を導入するとともに、内部の時間表現の幾何学的プロービング分析を行います。 私たちは、時間的アーティファクトのトークン化品質がリソース依存のボトルネックであることを発見しました:低リソース言語と希少な暦フォーマットでは、断片化が年/月/日分離を妨げ、精度が崩壊しますが、リソースが豊富な設定では桁レベルの分割に対してしばしば頑健です。 トークン化を超えて、交差混合効果回帰分析は、時間的線形性が高リソース言語における時間推論の最も強い予測因子である一方、断片化は低リソース言語におけるより強い予測因子であることを示しています。 コードは以下で入手可能です: https://github.com/gagan3012/mtb