从零实现 LLM Inference:072. CPU/GPU Overlap Scheduler(把 roseinfer 的 decode loop 做成 pipeline)
参考 SGLang/vLLM/TensorRT-LLM 的 overlap scheduling:用 future-token 占位 + GPU FutureMap + one-step delayed output,把 scheduler 从“GPU->CPU 同步 + CPU 串行”改成真正的 CPU/...
参考 SGLang/vLLM/TensorRT-LLM 的 overlap scheduling:用 future-token 占位 + GPU FutureMap + one-step delayed output,把 scheduler 从“GPU->CPU 同步 + CPU 串行”改成真正的 CPU/...
做一次业界级调研:vLLM/SGLang/TensorRT-LLM 的进程拆分怎么做;再把 roseinfer 从“一个进程干所有事”改成“API 进程 + engine 进程”,用可回归的 online/offline benchmark 跑出数据与图。
继续补齐 roseinfer 的“业内默认”推理优化:把 MLP epilogue(bias+GELU + bias+residual)做成 Triton kernel,把 sampling(top-k/top-p + sample)接到 flashinfer 的 from_logits GPU kernel,并...
业内推理引擎的性能不只靠 attention:decode(T=1) 下 LN/残差/激活这类小算子会变成“launch + 带宽”热点。本文调研 vLLM/SGLang/TensorRT-LLM 的融合思路,并在 roseinfer 落地 Triton fused add+LayerNorm(in-place)...
实现业界常见的 chunked prefill:把长 prompt 按 chunk 增量写入 paged KV cache,并与 decode 交错调度;提供可选开关与 online/offline benchmark,对比 chunked on/off 的延迟与吞吐。