从零实现 LLM Training:012. Argparse
为训练脚本引入 argparse 命令行参数,向工业级实现迈进。
为训练脚本引入 argparse 命令行参数,向工业级实现迈进。
为训练过程加入 checkpoint 容错机制,支持从中间状态恢复。
在完成张量并行后,引入混合精度训练以提高算力利用率。
通过按 head 维度切分 QKV,让 Attention 形成真正的张量并行。
将 Row Parallel Linear 引入 Attention 层,搭配 Column Parallel 完成张量并行。