CERN の頭脳は AI をシリコンに焼き付けてデータの氾濫を抑える
宇宙のオペレーティング・システムは自動でデバッグされることはない
feature CERN は、今日の\"エージェント型AI\" ジョッキーとは全く異なり、ほとんどが事前設定の重みと汎用のTPUやGPUに頼って、無駄なデータを生み出しています。CERN は、過剰なデータを排除するために、シリコン自体にカスタムのナノ秒速度AIを焼き付けます。
息子の学校へ親を連れて行く日が来るような大リーグの投手のように、CERN の Thea Aarrestad は今月初め、仮想の Monster Scale Summit で、同僚の多くが経験することのない超厳格な要件を満たすことについて発表を行いました。
Aarrestad は ETH Zurich の粒子物理学の准教授です。CERN(欧州原子核研究機構)では、彼女は機械学習を用いて大型ハドロン衝突型加速器(LHC)からのデータ収集を最適化しています。彼女の専門は異常検知で、適切な可観測性システムの核心要素です。
毎年、LHC は未処理のセンサデータだけで40,000エクサバイトを生み出します。これは全インターネットの約4分の1の規模です、と Aarrestad は推定しました。CERN はその全データを保存できません。その結果、「私たちはリアルタイムでそのデータを、私たちが保持できる範囲のものに削減する必要がある」
By \"real time\," she means extreme real time. The LHC detector systems process data at speeds up to hundreds of terabytes per second, far more than Google or Netflix, whose latency requirements are also far easier to hit as well.
Algorithms processing this data must be extremely fast,\" Aarrestad said. So fast that decisions must be burned into the chip design itself.
"}スマッシュ・バーガー
スイスとフランスの国境の地下約100メートルに位置する27キロメートルのリングの中で、LHCは亜原子粒子をほぼ光速に近い速度で衝突させている。生じる衝突は、素粒子物理学の標準模型――宇宙の基本的な『OS』――の理解を補完する新しいタイプの物質を生み出すと期待されている。
常に、リングの周りをほぼ光速で飛び回る約2,800の陽子ビンチがあり、それらは25ナノ秒の間隔で分離されている。地下の4つの検出器のいずれかに到達する直前に、特殊な磁石がこれらのビンチを圧縮して相互作用の確率を高める。とはいえ直接衝突は非常に稀であり、各ビンチに含まれる数十億もの陽子のうち、衝突中に実際に衝突するのは約60対のみである。
粒子が衝突すると、そのエネルギーは新しい出射粒子の質量へと転換される(E=MC2 はここでの世界です!)。これらの新しい粒子はCERNの検出器をシャワーのように通過し、私たちは「再構成しようとする」痕跡を生み出すと彼女は述べ、続く乱闘で生じた新しい粒子を特定するためだ。
各衝突は数メガバイトのデータを生み出し、毎秒およそ10億回の衝突が発生する結果、約ペタバイトのデータ(Netflix全ライブラリの大きさにほぼ等しい)となる。
むしろこのデータを地上へすべて運ぶよりも、検出器レベルで興味深い部分を選別するための巨大なエッジ計算システムを作る方が現実的だとCERNは判断した。
巨大なエッジ計算
「もし計算能力が無限にあれば、すべてを見られるはずだ」とAarrestadは言った。しかしこのデータのうち保存・分析されるのは0.02%未満である。行動シーンを拾い出すのは検出器自身に委ねられている。
ASIC上に構築された検出器は、検出されたデータを最大で4マイクロ秒間バッファし、その後「崖を越える」ため、保存されなければ歴史から永遠に失われる。
その決定を下すのが「Level One Trigger(レベル1トリガ)」で、約1,000個のFPGAの総合体が、検出器からファイバー光を介して提供される約10 TB/秒の縮小イベント情報のセットからイベント情報をデジタルに再構成する。トリガは「accept」(1)または「reject」(0)のいずれかの値を出力する。
衝突を保持するかどうかを決定するのは異常検知アルゴリズムの仕事である。入力の99.7%以上を即座に拒否するほど非常に選択的でなければならない。そのアルゴリズムは AXOL1TL と愛称され、すでにほぼ解明されている標準模型の「背景」領域で訓練されている。標準衝突の典型的なトポロジーを知っているため、それらの境界を超えるイベントを即座にフラグできる。アーレスタッドはこれを「珍しい物理現象を狩り出す」と表現していた。
このアルゴリズムは50ナノ秒以内に決定を下さなければならない。全衝突データのうち、約0.02%にあたる約110,000件のイベントだけが基準を満たし、地上へ保存・輸送される。たとえこの絞り込みを施しても、地上サーバへ送られるデータ量はテラバイト/秒規模となる。
一度地上に出ると、データは「High Level Trigger」と呼ばれる二次のフィルタリングを経て、再び捕捉された衝突の大半を破棄し、パイプを通ってくる毎秒10万件のイベントのうち、約1,000の興味深い衝突のみを特定する。このシステムには25,600個のCPUと400個のGPUが搭載され、元の衝突を再現して結果を分析するために、1日に約ペタバイトを生み出す。
「これが私たちが実際に分析するデータです」とアーレスタッドは言った。
そこからデータは42か国の170か所に複製され、世界中の研究者が分析できるようになり、総計140万個のコンピュータコアの処理能力を持つ。
AIのための温室環境
LHC検出器はAIにとって滅多に出会うことのない温室のような環境だ。だからCERNの技術者は自分たちのツールボックスを作ることになった。
確かに、ノイズキャンセリングヘッドホンのような消費者向けアプリケーション向けのリアルタイムライブラリはすでに数多く存在する。MLPerfMobileやMLPerfTinyのようなものだ。しかし、それらはCERNが求めるストリーミングデータレートと超低遅延を支えるには及ばない。
そこでCERNは機械学習モデルを「最初から小さくなるように」訓練したと彼女は言う。モデルは量子化され、剪定され、並列化され、必要な知識だけに蒸留された。FPGA上のすべての演算は量子化され、各パラメータには一意のビット幅が定義され、勾配降下法を用いて最適化できるように差分化されている。
エンジニアリングチームは、特定のプラットフォームを対象としてC++コードでモデルを書き出すトランスパイラー HLS4ML を開発し、それを使えば加速器やシステム・オン・チップ、カスタムFPGA、さらにはASIC上で“シリコンを印刷する”ために使用することができる。
検出器アーキテクチャは、伝統的なVon Neumann型のメモリ-プロセッサ-IOのモデルから脱却している。何も逐次的に駆動されるわけではない。むしろ『データの可用性』に基づく。「このデータが入手可能になり次第、次の処理が開始される」と彼女は述べた。
さらに重要なのは、意思決定をオンチップで行わなければならないことだ。高速なメモリにまで処理を任せることはできない。ハードウェアの各部は特定のモデルに合わせて調整されている。決定は設計時に行われる。FPGAの各レイヤーは別々の計算ユニットである。
オンチップのシリコンのかなりの部分は、各計算を新たに行う前に処理を節約するための事前計算に充てられている。あらゆる入力の出力はすべてルックアップテーブルで参照される。
当然、巨大なモデルをこれらの細片のシリコンに置くことはできない。ここには巨大な変換深層学習モデルを置く余地はない。こここ CERN はツリーベースのモデルが深層学習のモデルと比べて“非常に強力”であることを見出した。非常に強力、深層学習モデルと比べて。
CERNの経験では、ツリーベースのモデルは同等の性能を保ちながら、深層学習モデルのコストのごく一部で済む。標準模型は表形式データの集合とみなせるため驚くべきことではない。衝突ごとに、LHCは構造化された離散測定のセットを吐き出す。
データをもっとください
CERNは衝突のすべてのパラメータを5-sigmaレベルまで測定しようとしている—99.999%、5ナイン、発見を主張するための金標準だ。ヒッグス粒子はこの標準を使って発見された。
LHC衝突装置は、少なくとも80個以上の他のハドロン、すなわち強い核力で結合された粒子を見つけており(先週の1つを含む)。
衝突が1兆分の1未満の頻度で起こる新しい過程を捜している。
今年末、LHCは高輝度LHC(High Luminosity LHC)の導入に向けて停止します。2031年に運用を開始する予定です。これにより、素粒子物理学者が渇望する、より多くの甘美なデータを提供することになるでしょう。
ビームを非常に小さなスポットに集束させるため、より強力な磁石を備えます。陽子の束はサイズが倍増します(「それらの陽子が互いに話しかける確率が高まる」という意味です)。
そのため衝突は格段に増え、データは10倍に増加し、はるかに密度の高い「イベントの複雑さ」につながります。イベントサイズは2MBから8MBへ跳ね上がりますが、得られるデータの流れは4 Tb/secから63 Tb/secへ跳ね上がります。
検出器は各衝突を識別し、次に各粒子対の組み合わせを元の衝突点へ戻って追跡します――すべて数マイクロ秒以内に。
先端的なAI研究機関がますます大規模なモデルを構築する一方で、CERNは多くの点で反対方向へ進み、攻撃的な異常検知、異質に量子化されたトランスフォーマー、そしてAIをこれまで以上に小さく高速化するその他の工夫を取り入れています。宇宙の理解を深める際には、時には捨てるべき情報を知ることが有益です。 ®



