Sony Ace:卓球エリートに5戦中3勝したロボットがNatureで話題に

Dev.to / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Sony AIは*Nature*に論文「Outplaying Elite Table Tennis Players with an Autonomous Robot(自律ロボットで卓球エリートに挑み勝つ)」を発表し、Sony Aceを、自律型ロボットとしてITTF公式ルールのもとでエリート選手相手にフルマッチ3勝(5戦中)した存在として示した。
  • この成果は、台本のあるデモ(振り付け)に基づくものではなく、有資格の審判とプロ競技サーキットの対戦相手と行った試合によって成り立っており、パフォーマンスの信頼性を高めている。
  • Sony Aceは、8自由度のカスタムロボットアーム、複数のカメラ(フレームベースおよびイベントベース)、そして応答を遅延約20.2 msで決定するために最適化された強化学習スタックを統合している。
  • 主な結果(2025年4月→公表)に加えて、この論文ではその後の評価として2025年12月および2026年3月の結果も報告されており、異なるレベルの対戦相手に対して進歩が段階的に見られ、かつ一貫した変動性を示している。
  • Peter Dürrが率いるチームで、科学面はPeter Stone(Chief Scientist)とMichael Spranger(Sony AIの会長)が統括しており、この進歩を「競技性のあるフィジカルスポーツ」におけるAIおよびロボティクスの大きな節目として位置づけている。

2026年4月23日、Sony AIは雑誌Natureの表紙で論文Outplaying Elite Table Tennis Players with an Autonomous Robotを公開しました。Sony Aceと名付けられたこのシステムは、競技性のある、日常的な身体スポーツにおいて人間のエリート選手に勝利した史上初の自律型ロボットとなりました。これは、制御されたラリーでも、入念に振り付けられたデモでもありません。Sony Aceは、国際卓球連盟(ITTF)の公式ルールの下で、ライセンスを持つ審判員とプロのサーキットから選ばれた対戦相手による5試合のフルマッチで3勝しました。

この達成の背後には、5年以上の作業、自由度8のカスタムロボットアーム、フレームベースの9台のカメラ、イベントベースの視覚システム3つ、そして、ボールが相手のパドルから出てからロボットが応答を決めるまでのレイテンシをわずか20.2ミリ秒まで短縮する強化学習のスタックがあります。これは、Sony AIのチーフサイエンティストであるPeter Stoneによれば、「卓球よりも大きいものです。AIの一連のマイルストーンに加わるものです」。

Qué pasó: el paper, las fechas y el resultado

この論文はNatureにDOI 10.1038/s41586-026-10338-5で掲載され、対応著者としてプロジェクトのディレクター兼リードエンジニアであるPeter Dürrが名を連ねています。このチームはDürrが率い、Michael Spranger(Sony AIの会長)とPeter Stoneが加わり、30人以上の研究者で構成されています。Abecassis、Adodin、Aydin、Bi、Blakeman、Conti-Fujiwara、Farshad Khadivar、Fuentes、Giammarino、Grover、Heusser、Hu、Huang、Kreiser、Maeda、Monferrato、Mukai、Nagel、Sahloul、Saraiji、Schilling、Scotti、Silva、Takahashi、Tapiador-Morales、Torrente、Walther、Yang、Ynocenteなどが含まれます。

掲載を支える評価は2025年4月に実施されました。エリートに分類された5人の選手と2人のプロ選手が、ITTF標準の形式でロボットと対戦し、公式の審判員が各サーブ、各フォルト、各サービスチェンジを検証しました。Natureに届いた中心的な結果は次の通りです。Sony Aceはエリート相手に5試合中3勝。全勝ではありません。屈辱を与えたわけでもありません。勝ったのは多数で、最高の選手には負けた。それこそが、このマイルストーンを信じられるものにしているのです。

その後も物語は続きました。2025年12月、評価の第2ラウンドでロボットは2人のエリートと1人のプロに勝利し、別のプロには敗れました。2026年3月には、対戦した新たな3人のプロの少なくとも全員に対して一度は勝利しました。改善カーブは本物で、しかも速いです。
Sony Aceは、ITTFルールの下で行われる公式試合でドライブを返します。

Contexto: décadas persiguiendo un robot atleta

自律型ロボットが身体的なスポーツで熟練した人間に勝つことは、軽視できないニュースです。これは、AIとロボティクスのコミュニティが何十年も追いかけてきた、そうした節目の一つです。歴史的には、チェスのDeep Blue対Kasparov(1997)、囲碁のAlphaGo対Lee Sedol(2016)、あるいは近年のポーカー、StarCraft、Dotaの支配に連なる流れの中で起きる出来事です。違い、そしてそれは非常に大きいのですが、そうした勝利はいずれもデジタルの世界で起きたことです。Sony Aceは物理世界で動きます。予測し、計画し、実際の質量を動かし、20メートル毎秒を超える速さで飛んでくるスピンのかかった物体を打ち返さなければなりません。

最も目立つ先例はForpheusでした。これはOmronが2014年に発表し、その後CEATECの展示ごとに改良を重ねてきたロボットです。Forpheusは、来場者と長いラリーを成立させるため展示で印象的ですが、その役割は人間に教えることを明示的に目的として設計されています。実力は下げて調整され、得点を狙うことはなく、また公式に競ったこともありません。Google DeepMindは2024年に、短い試合でロボットがアマチュアレベルに到達することを示した研究を公開しました。これは大きな前進ですが、競技レベルからはまだ遠いものでした。今日変わったのは、Sony Aceが勝つためにプレーし、サーキットの対戦相手と対戦し、規定された形式で戦うことです。

Sprangerは、Sony AIの賭けの本質を要約する一文でこれを位置づけています。「私たちは、AIが仮想空間だけに存在するのではないことを示したかった。つまり、物理的な体験を持てることを」。そして技術的に重要な一点として、「ロボティクスにおいて、速度があらかじめ決め打ちされていない場合、それはロボティクスの最後のフロンティアの一つです」と付け加えています。

Datos y cifras verificadas

sonyresearch.github.io/ace_public/で公開されている論文と補足資料は、このシステムがなぜ機能するのかを理解するのに役立ちます。ここで重要なのは次の数字です。

  • 20.2ミリ秒のエンドツーエンド・レイテンシ。ボールが進行方向を変えた瞬間から、ロボットがその行動を決めるまでの時間です。人間のエリート選手は約230msで運用しています。Sony Aceは、知覚-意思決定-行動の連鎖において11倍速い。- 200Hzでのボール追跡(ミリメートル精度)。- 700Hzまで測定できるスピン。さらに、最大450rad/sまでのボールに対してリターン率が75%超で、これまでのどのロボットよりもはるかに上回っています。- ボール追跡レイテンシは約10ms。- 自由度8のカスタム・ロボットアーム。慣性を低減するために最適化された軽量合金で製造。- Sony Semiconductor Solutionsのフレームベース・カメラ9台を同期イベントベースの視覚システム3つ

ポイント:230msから20.2msへの低減は単なる工学上の細部ではありません。競技的なスマッシュに“リアルタイムで”応答できるようにすることが本質です。このレイテンシがなければ、他のスタックのすべてが役に立ちません。

Cómo funciona: aprendizaje por refuerzo en simulación

Sony Aceの“脳”は、実データによるその後のファインチューニングなしで、完全にシミュレーションで学習されます。この判断は、文献ではsim-to-real transfer(シムツーレアル転移)と呼ばれ、ロボティクスで最も高くつき遅い作業、つまり数百万時間にも及ぶ物理試合の収集を回避できます。ただし代償があります。シミュレーションの物理モデルにおけるあらゆる誤りが、そのままコート上へ持ち込まれるのです。

制御アーキテクチャは、3つの階層的な層と、privileged-criticとして知られる技術を組み合わせています。

  • Skill:ジョイント制御。最下層であり、自由度8のロボットアームを精密に動かす役割を担います。- Tactics:ラリーの判断。入ってくるスピンに応じてどのタイプのリターンを選ぶか、どこに置くか、どれくらいの力で打つか。- Strategy:マッチレベルでの計画。セットをまたいで相手のパターンに合わせてゲームを調整します。

privileged-criticの“コツ”はエレガントです。学習中、ある行動(“クリティック”)がどれほど良かったかを評価するコンポーネントは、状態の世界の完全な情報—ボールの正確な位置、実際のスピン、相手の速度—を受け取ります。これは実際の試合では利用できない情報です。実際の物理世界でプレーする“アクター”は、カメラが与える情報だけを見ます。これにより、推論に“不可能な情報”を混ぜることなく、はるかに強い方策(ポリシー)が得られます。

さらに、このシステムはself-playも使用します。ロボットは自分自身と対戦し、異なる技能レベルのコピー同士が相手役となって、自然にカリキュラムが生成されます。上達するにつれて難易度が段階的に引き上げられていくのです。

flowchart LR
    V["Visión: 9 cámaras + 3 event-based"] --> S["Skill: control joints"]
    V --> T["Tactics: decisión de rally"]
    T --> S
    ST["Strategy: plan de match"] --> T
    S --> A["Actuadores 8 DoF"]
    A --> P(("Pelota"))
    P --> V

ソニー・エースのスタック:200 Hzでの認識、階層的な意思決定、20 ms未満での実行。

影響と分析:ピンポンを超えてなぜそれが重要なのか

シンプルに読むとスポーツ的だ。ある機械が、オリンピック競技で人間のプロを打ち負かした。著者らが共有している面白い読みどころは、Sony Aceが、深層強化学習、イベントベースの視覚、低遅延なハードウェアの組み合わせだけで、時間的に極めて厳しいプレッシャー下での意思決定を必要とする身体的なタスクを解決できることを示している点だ。卓球は理想的な試験例である。高速な知覚、高度に自明ではない物理予測(効果、バウンド、摩擦)、マニピュレータの微細な制御、そして試合相手が自分の戦い方を適応させてくる状況に対する敵対的推論が同時に揃っているからだ。

近い応用は明白だ。高速な産業マニピュレーション、動きが不規則な部品が行き交う包装ライン、反応を迫られるサービスロボット、協働ドローン。どれも同じ問題構造を共有している。動的な世界を認識し、素早く意思決定し、正確に行動すること。

Tip: もしロボティクスや応用MLに携わっているなら、sonyresearch.github.io/ace_public/ の補足資料には、評価動画、アブレーション、そして privileged-critic のアーキテクチャの詳細などが含まれており、これほどの粒度で公開されることはめったにない。

ソニー自身が認めている限界

チームは、まだ解けていないことについて透明性がある。問題が解決済みだと宣言する前に、この注意書きを読む価値がある。

  • 不完全な物理モデリング。 当初のモデルは、速いショットでの空力抵抗を過大評価していた。極端な速度が生み出される強い相手と対戦して初めて、そのことが判明した。- スマッシュにおける sim-to-real の不一致。 チームの言葉によれば:「シミュレーションではテーブル上でボールに当てられますが、現実ではもっと遠くへ飛んでいきます」。- タイミングの偏り。 システムは、人間よりも頻繁に、バウンド直後ではなくそれより前にボールを打ちに行く傾向があり、その結果、ショットの戦術的バリエーションが制限される。- 世界チャンピオン級ではない。 ソニーはそれをエリートレベルであって、超人ではないと説明している。スプランガーははっきり言う:「このシステムより優れている人は、いくつかまだ残っている」。- 初期の反復では保護具が必要だった。 最初の試験では、参加した人間にヘルメット、パッド、安全用のメガネが使われていた。制御が十分に信頼できるものになるまで、そうした措置が取られた。

⚠️ 注意: 成功は、ロボット自身のダイナミクスを正確にモデル化できるかに依存している。このアプローチを別のタスクへ移すのはプラグアンドプレイではない。シミュレータを慎重に再キャリブレーションする必要がある。

タイムライン:Natureの表紙に到達するまで5年

Project Aceは2020年に立ち上がった。ソニーAIの部署が設立された当初期のプロジェクトの一つだ。公開されているスケジュールは次のとおりである。

  • 2020年: プロジェクト開始。- 2025年4月: 5人のエリート+2人のプロに対して、ITTFの審判によるマイルストーン評価。- 2025年4月〜12月: ヒッティングフォースとスピン制御の改善。- 2025年12月: 新たな評価。2人のエリートと1人のプロに勝利。- 2026年3月: 少なくとも3人の新たなプロに一度は勝利。- 2026年4月23日: Natureの表紙での公開。

次に何が起きるか

ソニーAIは商用製品を発表していない。論文の主眼は方法にあり、それは同部署の研究方針とも合致している。すなわち、スポーツや複雑な領域をテストベッドとして使い、その後で他の課題へ制御アーキテクチャを移植していくことだ。今後数か月の、もっともあり得る3つの道筋:

  • より良い物理モデリング:高速ショットにおけるsim-to-realのギャップを埋め、人間により近い戦術的バリエーションの幅を開くこと。- オンライン適応:自己対戦で学んだ内容だけに頼るのではなく、同じ試合内で相手のスタイルに合わせてリアルタイムに適応すること。- privileged-critic+3層階層のアーキテクチャを他の物理領域へ移植:産業用マニピュレーション、パーソナルアシスタンス、検査用ロボティクス。

産業界へのメッセージは明快だ。レイテンシはもはや到達不可能なボトルネックではない。sim-to-realはこのレベルの精度で機能し得る。そして「次の10年の出来事」のように見えた物理的マイルストーンは、すでにDOI付きで確定している。

Telegram要約:要約を見る

よくある質問

Sony Aceとは一体何ですか?

ソニーAIが開発した自律型ロボットシステムで、競技レベルの卓球をプレイする。8自由度のアーム、ソニー・セミコンダクター・ソリューションズのイベントベース視覚、そしてシミュレーション上での深層強化学習によって訓練されたポリシーを組み合わせている。

本当にプロ選手に勝ったのですか?

はい。Natureの論文では、公式の審判のもとでITTFルールに従ってエリート選手との5試合中3試合に勝利している。さらに後の評価(2025年12月および2026年3月)でもプロに勝ったが、すべての試合で全員に勝ったわけではない。ソニーはそれを世界チャンピオン級ではなく、エリートレベルだと説明している。

人間と比べてどれくらい速く反応しますか?

Sony Aceのエンドツーエンドのレイテンシは20.2ミリ秒だ。人間のエリート選手は約230 msで動作している。知覚→意思決定→行動の連鎖において、約11倍速い。

テーブルを壊したり人を傷つけたりせずに、どうやってロボットを訓練するのですか?

訓練は完全にシミュレーション上で行われ、self-playと、privileged-critic と呼ばれるアーキテクチャを使用する。ポリシーは追加のファインチューニングなしに実機ハードウェアへ転送される。初期の物理試験では、人間側はヘルメット、パッド、安全メガネを使用した。

商用製品になりますか?

製品の発表はない。ソニーAIはこの取り組みを研究として提示している。技術的な学びは、産業マニピュレーションのように高速な身体的意思決定を必要とする他のロボティクス課題へと移植できるよう想定されている。

Deep BlueやAlphaGoのようなマイルストーンと比べてどうですか?

象徴的なスケールにおいてそれに相当する。Deep BlueとAlphaGoは、デジタルの世界でチェスと囲碁を制した。Sony Aceは、一般的な競技としての身体的スポーツで、エリートの人間に勝利した最初の自律型システムだ。ソニーAIのチーフサイエンティストであるピーター・ストーンは、それをそのシリーズのマイルストーンとして明確に位置づけている。

参考文献

返却形式: {"translated": "翻訳されたHTML"}

このコンテンツは気に入りましたか? 私たちのTelegramチャンネル@programacionに参加してください。そこでは毎日、テクノロジー、AI、開発の中でも最も重要な情報を公開しています。手短な要約と、毎日新鮮なコンテンツ。