从零实现 LLM Training:009. True Tensor Parallel for Attention 2 分钟阅读 通过按 head 维度切分 QKV,让 Attention 形成真正的张量并行。