从零实现 LLM Inference:032. Decode-first Worker Loop
worker loop 在有 active sessions 时先 decode 再 prefill:减少 decode 被 admission 抢占,收敛 ITL p99。
worker loop 在有 active sessions 时先 decode 再 prefill:减少 decode 被 admission 抢占,收敛 ITL p99。
prefill admission 从“按请求数”升级为“按 tokens 预算”:限制 prefill 抢占,收敛 ITL p99。
把 worker 的 prefill admission batch size 从 decode batch size 解耦:TTFT p99 直接砍掉一半。
prefix cache 开启时也能 micro-batch prefill:hit 直接 attach,miss 合并成一次 forward。
把 worker 里的 prefill 从串行变成 micro-batch,一次 forward 吞掉一批 pending request。