从零实现 LLM Training:005. Use Column Parallel
把 Column Parallel Linear 集成到 GPTModel 中并用训练循环验证。
把 Column Parallel Linear 集成到 GPTModel 中并用训练循环验证。
引入列张量并行(Column Parallel)作为张量并行的第一步。
使用 PyTorch DDP 实现最简单的数据并行训练。
为 mini-GPT 加上最基本的 loss 和最小 train loop。
从零实现 mini-GPT 的配置、模型和简单前向。