論文(非常に特定の種類の拡散モデル)を再現しようとしていて、その学習スキームは信じられないほど計算量が大きいです。
一般に、モデルが大規模で計算コストが高い場合、仮説を検証するための素早い実験はどのように行われますか?
ざっと調べてみると、次のようなことが見つかります。1) データセット全体のうち5〜10%だけを使う。2) バッチサイズを大幅に減らし、それを学習率で補う。3) エポック数/イテレーション数を減らす。
ただし、私はオンライン上のリソースやLLMが教えてくれる内容からこれらを推測せざるを得ませんでした。これらに加えて/それ以上に/またはこれらと矛盾するような何かはありますか?
[リンク] [コメント]




