BatteryPass-12K:新しいデジタル・バッテリー・パスポート適合性タスクのための初のデータセット

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は「デジタル・バッテリー・パスポート(DBP)の適合性(conformance)分類」という新たなタスクを提案し、そのための最初の公開ベンチマークとして BatteryPass-12K を紹介しています。
  • EUのDBPに関する規制が間もなく施行される一方で公開データセットが存在しないため、著者らは CC-BY-4.0 の許諾で BatteryPass-12K を公開し、評価・研究を可能にします。
  • 22の言語モデルをゼロショット推論で評価し、小規模LM、モーション・オブ・エキスパート(MoE)、密なLLMを比較した結果、思考(推論過程)型のモデルが最も良い性能を示したと報告しています(例:GPT-5.4 が検証・テストで高いF1を達成)。
  • 追加実験では、few-shot(少数例)提示が精度を大きく改善する一方、最先端モデルでも本タスクは難しく、パラメータのスケーリングだけでは必ずしも性能向上につながらず、さらにプロンプト・インジェクション攻撃で性能が低下することが示されました。
  • BatteryPass-12K はパイロットサンプルに限定されるものの、ライフサイクル推論など、他のバッテリー領域の既知・新興タスクにも活用できる可能性があると述べています。

要旨: デジタル・バッテリー・パスポート(DBP)の適合(コンフォーマンス)分類という新しいタスクを提案し、同タスクに対する最初の公開ベンチマークとして、実際のパイロット・サンプルから合成して作成したBatteryPass-12Kを紹介します。DBPに関するEUのバッテリー規制が間もなく施行される一方で、公開データセットが存在しません。私たちは、ゼロショット推論において22の言語モデル(LM)を評価し、小規模LM(SLM)、mixture of experts(MoE)、密なLM(dense LLM)を幅広く対象としました。また、分析に加えて、少数ショット推論およびプロンプト・インジェクション攻撃も実施し、その結果、(1) 思考(Thinking)モデルが最も高い性能を示し(検証セットとテストセットで平均としてF1により、それぞれGPT-5.4が0.98(0.03)および0.71(0.22)、さらに95%の信頼区間を伴う)、(2) 少数ショットの例は性能を大幅に向上させ、(3) 一般に高性能な最先端モデルでもこのタスクは難しく、(4) 単にモデルのパラメータ数をスケールするだけでは必ずしも性能向上につながらず、SLMが一部のLMを上回り、そして(5) プロンプト・インジェクション攻撃により性能が低下することを見出しました。BatteryPass-12Kは実際のパイロット・サンプルに限定されているものの、バッテリー領域における他の既知または新興タスク、たとえばライフサイクル推論に対して有用である可能性があります。私たちは、緩やかなライセンス(CC-BY-4.0)の下でデータセットを公開します。