1 minute read
将模型配置写入 checkpoint,简化加载与推理时的配置管理。
4 minute read
重构 Dataset,支持多文档输入与更合理的切分策略。
3 minute read
在完成基础训练后,实现一个最简单的文本生成脚本。
12 minute read
将 toy 数据集替换为更真实的文本数据,完善训练链路。
6 minute read
加入验证集评估和日志记录,用 loss 与 PPL 监控训练效果。