从零实现 LLM Training:010. Mixed Precision
在完成张量并行后,引入混合精度训练以提高算力利用率。
在完成张量并行后,引入混合精度训练以提高算力利用率。
通过按 head 维度切分 QKV,让 Attention 形成真正的张量并行。
将 Row Parallel Linear 引入 Attention 层,搭配 Column Parallel 完成张量并行。
把 Row Parallel Linear 引入 FFN 模块,配合 Column Parallel 完成张量并行。
在已有 Column Parallel 基础上实现 Row Parallel Linear。