从零实现 LLM Training:020. PyTorch Profiler and NVTX
使用 PyTorch profiler 与 NVTX 捕捉 trace,深入分析训练性能瓶颈。
使用 PyTorch profiler 与 NVTX 捕捉 trace,深入分析训练性能瓶颈。
通过 activation checkpointing 以重计算换显存,优化大模型训练。
为学习率引入 cosine scheduler,并将调度状态写入 checkpoint。
将模型配置写入 checkpoint,简化加载与推理时的配置管理。
重构 Dataset,支持多文档输入与更合理的切分策略。