4 分钟阅读
实现基础的 kv block manager
3 分钟阅读
实现离线调度器,支持并发请求。
10 分钟阅读
添加 Inference Session,支持并发请求。
实现流式生成(streaming),支持边生成边输出。
1 分钟阅读
解决模型初始化问题,让训练更稳定。