コードから予測へ:NNGPTにおけるニューラルネットワーク性能分類のためのLLMファインチューニング

arXiv cs.CV / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、NNGPTフレームワーク内で、生成物を学習して後評価するのではなく「与えられたニューラルネットワーク構造が2つの画像分類データセットのどちらでより高精度を出すか」をLLMで予測する新しい微調整タスクを提案している。
  • LEMURデータセットを活用し、標準化されたPyTorch実装と再現可能な評価指標に基づいて、難易度の異なる3種類のプロンプト(容易な正規化精度ベースライン、メタデータのみ、コードのみ)を検証する。
  • LoRAでDeepSeek-Coder-7B-Instructをファインチューニングした結果、コードのみのプロンプトが最も良く、15エポックでピーク80%を達成し、メタデータプロンプトの70%を上回った。
  • データセットごとの分析では、メタデータは性質が際立つデータセットで有効だが、特徴が重なる場合に低下しやすく、コードのみの方がよりバランス良く機能する。
  • まとめると、微調整したLLMはアーキテクチャのソースコードからデータセット横断での適性を推定できることが示され、コードにはデータセットメタデータ単独よりも識別に有用な情報が多い可能性が示唆される。

Abstract

自動機械学習(AutoML)フレームワークは、ハイパーパラメータ最適化やニューラルアーキテクチャのコード生成などのタスクに対して、大規模言語モデル(LLM)を活用することがますます増えています。しかし、現在のLLMベースの手法は生成出力に焦点を当てており、生成された成果物を訓練して評価します。LLMがデータセット横断でニューラルネットワークの性能を推論することを学べるかどうかは、十分に調査されていません。本研究では、NNGPTフレームワークに統合された分類タスクを提示します。このタスクでは、微調整されたLLMが、与えられたニューラルネットワークのアーキテクチャが2つの画像分類データセットのうちどちらで高い精度を達成するかを予測します。このタスクは、標準化されたPyTorch実装と再現可能な性能指標を提供するLEMURデータセットに基づいて構築されています。難易度を段階的に高めた3つのプロンプト構成を評価します:正規化精度ベースライン(自明に100%に到達)、精度をデータセットの特性に置き換えるメタデータ強化プロンプト、アーキテクチャのソースコードとデータセット名のみを提示するコードのみプロンプトです。LoRAで微調整したDeepSeek-Coder-7B-Instructでは、コードのみプロンプトが15エポックで最高80%の精度に到達する一方、メタデータプロンプトは最高70%でした。データセットごとの分析から補完的な強みが明らかになりました。メタデータは、(CelebAGenderが90.9%のように)特徴が際立つデータセットでは優れますが、特徴が重複する場合には性能が低下します。一方、コードのみプロンプトはよりバランスの取れた性能を示します。DeepSeek-Coder1.3Bとの比較により、この種のアーキテクチャ推論ではモデル容量が影響することが確認されます。これらの結果は、LLMがニューラルネットワークのコードからデータセット横断の適合性を予測するように微調整できることを示しています。すなわち、アーキテクチャのソースコードには、データセットのメタデータ単独よりも豊かな識別的シグナルが含まれている可能性が示唆されます。