2 minute read
为 mini-GPT 加上最基本的 loss 和最小 train loop。
从零实现 mini-GPT 的配置、模型和简单前向。
3 minute read
Generalized Advantage Estimation(GAE)推导与直觉
1 minute read
数据并行
5 minute read
训练时的显存开销