从零实现 LLM Training:023. Gradient Accumulation and Clip Gradient Norm
实现梯度累积和梯度裁剪,提高训练稳定性。
实现梯度累积和梯度裁剪,提高训练稳定性。
引入 FineWebNPYDataset 数据集 class。
使用 WandB 记录训练过程,方便后续分析。
使用 PyTorch profiler 与 NVTX 捕捉 trace,深入分析训练性能瓶颈。
通过 activation checkpointing 以重计算换显存,优化大模型训练。