7 分钟阅读
为学习率引入 cosine scheduler,并将调度状态写入 checkpoint。
1 分钟阅读
将模型配置写入 checkpoint,简化加载与推理时的配置管理。
4 分钟阅读
重构 Dataset,支持多文档输入与更合理的切分策略。
3 分钟阅读
在完成基础训练后,实现一个最简单的文本生成脚本。
12 分钟阅读
将 toy 数据集替换为更真实的文本数据,完善训练链路。