3 minute read
实现离线调度器,支持并发请求。
10 minute read
添加 Inference Session,支持并发请求。
实现流式生成(streaming),支持边生成边输出。
1 minute read
解决模型初始化问题,让训练更稳定。
4 minute read
实现 batch inference 功能,支持多条 prompt 同时推理。