| 私は TraceML(OSS)にノーコードモードを追加しました: PyTorch のトレーニング中、通常の stdout/stderr が表示されたまま、システムとプロセスの指標をリアルタイムのターミナルビューとして提供します。 計測を追加したり、より重いプロファイラを使う前に、素早いファーストパスのビューを得たいときのために作られています。 現在の制限事項: マルチノードの起動にはまだ対応していません。 [リンク] [コメント] |
[P] PyTorchトレーニングのゼロコード実行時可視性
Reddit r/MachineLearning / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage
要点
- TraceML は traceml watch train.py コマンドにより、PyTorch トレーニング中のリアルタイムのランタイムビューを可能にするゼロコードモードを追加します。
- 標準出力と標準エラーが表示されたまま、システムおよびプロセスメトリクスのライブ端末ビューを表示します。これにより、追加の計測なしで迅速な診断が可能です。
- この機能は、トレーニング実行が遅いと感じられる場合に迅速なフィードバックを提供することを目的としており、重い計測や完全なプロファイラを追加する前のファーストパス検証として機能します。
- 現在の制限として、マルチノードの起動はまだサポートされていません。プロジェクトリポジトリは https://github.com/traceopt-ai/traceml/ にあります。