从零实现 LLM Training:008. Use Row Parallel for Attention
将 Row Parallel Linear 引入 Attention 层,搭配 Column Parallel 完成张量并行。
将 Row Parallel Linear 引入 Attention 层,搭配 Column Parallel 完成张量并行。
把 Row Parallel Linear 引入 FFN 模块,配合 Column Parallel 完成张量并行。
在已有 Column Parallel 基础上实现 Row Parallel Linear。
把 Column Parallel Linear 集成到 GPTModel 中并用训练循环验证。
引入列张量并行(Column Parallel)作为张量并行的第一步。