Pangu-ACE:EduBench向け教育応答生成のための適応的カスケード型エキスパート

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • Pangu-ACEは、必要なときだけ計算資源を増やす教育応答生成システムで、1Bの「tutor-router」から7Bの専門家プロンプトへサンプル単位でカスケードします。
  • 手順では1Bモデルが下書き回答とルーティング用の信号を生成し、タスク依存の判断に基づいて、下書きを採用するか各サンプルを7Bの専門家へエスカレーションします。
  • 論文は、以前のオフライン評価で「形式チェックを通過しただけ」の開形式出力を過大に評価してしまう重大なバグを修正し、EduBenchの中国語テストアーカイブ(7013サンプル)で改善を報告しています。
  • 従来のrule_v2方式に比べ、決定論的品質は0.457から0.538へ、形式妥当性は0.707から0.866へ向上し、19.7%のリクエストは1Bのみで直接処理できました。
  • アーカイブされたデプロイではレイテンシの改善はまだ示されていませんが、効率性の主張は壁時計時間の高速化ではなく、ルーティングの選択性によって裏付けられており、GPT-5.4のベースライン再判定はプロバイダ設定の不備によりインフラ修復待ちです。

Abstract

教育用アシスタントは、タスクが必要とする場合にのみ計算を増やすべきである。本論文では、リポジトリに実装されてアーカイブされた実際のシステムに基づき、以前のドラフトを作り直す。すなわち、共有-8 EduBench ベンチマークに対する、サンプルレベルの 1B から 7B へのカスケードである。最終システムである Pangu-ACE は、1B のチューター・ルータを用いて下書きの回答とルーティング信号を生成し、次にその下書きを採用するか、サンプルを 7B のスペシャリスト・プロンプトへエスカレーションする。さらに、重大なオフライン評価のバグも修正する。先行する要約では、一部のオープン形式の出力が、表面的なフォーマット検査のみを満たしているにもかかわらず過剰に高く評価されていたのである。保存した予測 JSONL から CPU 側で再スコアリングした結果、完全な中国語テストアーカイブ(7013 サンプル)では、カスケード_final が旧来の rule_v2 システムに比べて、決定的品質を 0.457 から 0.538 へ、フォーマット妥当性を 0.707 から 0.866 へ改善しつつ、1B のみで 19.7% のリクエストを直接受理することが示された。ルーティングはタスク依存が強い。IP は 1B で 78.0% の確率で受理される一方、QG と EC は依然としてほぼ常にエスカレーションされる。現在アーカイブされているデプロイメントでは、レイテンシ向上はまだ確認できないため、擁護可能な効率性の物語は、壁時計時間の加速ではなくルーティングの選択性にある。また、再現可能なアーティファクト重視の論文ワークフローをパッケージ化し、残っている外部ベースラインとの差分も明確化する。すなわち、GPT-5.4 の再判定はローカルで実装されているが、設定されたプロバイダのエンドポイントとキーは無効であるため、GPT-5.4 との最終的なサンプルベースライン整合は、インフラの修復待ちとなっている。