事前学習されたインサイチュ学習を用いたフォトニック畳み込みニューラルネットワーク

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、光学ドメイン内で完全にMNISTの画像分類を行う、完全フォトニック畳み込みニューラルネットワーク(PCNN)を提示し、頻繁なO/E/O変換なしで94%のテスト精度を報告している。
  • Mach-Zehnder干渉計(MZI)メッシュ、波長分割多重(WDM)によるプーリング、マイクロリング共振器に基づく非線形性を用いることで、首尾一貫した光学的処理を維持し、最大プーリングはシリコンフォトニクス上で実装している。
  • 物理的な位相シフタのパラメータの学習が難しい問題に対し、著者らはハイブリッド学習手法として、外部事前学習(ex-situ)での逆伝播に用いる厳密な微分可能デジタルツインと、SPSAアルゴリズムによるインサイチュ微調整を組み合わせている。
  • 実験評価では、熱クロストークに対する強いロバスト性が示されており、過酷な結合条件下でも精度低下はわずか0.43%にとどまる。
  • 単一画像推論において、電子GPUに比べて100〜242×のエネルギー効率向上を実現できると主張しており、ニューラル推論におけるエネルギーのボトルネック削減の利点が期待される。

要旨: フォトニック・コンピューティングは、電子のフォン・ノイマン・アーキテクチャのエネルギー・ボトルネックを克服する大きな可能性を有する計算パラダイムである。スループットと消費電力は相補金属酸化膜半導体(CMOS)チップにおける根本的な制約であり、そのため畳み込みニューラルネットワーク(CNN)が機械学習、コンピュータビジョン、その他の画像ベースのアプリケーションを革新している。本研究では、光学ドメインのみでMNIST画像の分類を実行し、テスト精度94パーセントを達成する、完全フォトニックな畳み込みニューラルネットワーク(PCNN)を提案し、検証する。光から電気へ、さらに電気から光へという頻繁な中間変換(O/E/O)に依存する既存のアーキテクチャとは異なり、我々のシステムは、マッハツェンダー干渉計(MZI)メッシュ、波長分割多重(WDM)プーリング、ミクロリング共振器ベースの非線形性を用いることで、コヒーレントな処理を維持する。最大プーリングユニットはシリコンフォトニクス上で完全に実装されており、光電変換や電気変換を必要としない。物理的な位相シフタのパラメータを学習する際の課題を克服するために、外部(ex-situ)のバックプロパゲーションには数学的に厳密な微分可能デジタルツインを用いたハイブリッド学習手法を導入し、その後、Simultaneous Perturbation Stochastic Approximation(SPSA)アルゴリズムによる内部(in-situ)での微調整を行う。我々の評価は、熱クロストークに対して顕著な頑健性を示し(過酷な結合において精度低下は0.43パーセントのみ)、さらに単一画像の推論において、最先端の電子GPUと比べて100〜242倍の優れたエネルギー効率を達成する。