从零实现 LLM Inference:033. Prefill Admission Packing
token budget + FIFO 仍然会遇到 head-of-line blocking:用 lookahead packing 把短请求先塞进 prefill,收敛 TTFT p99。
token budget + FIFO 仍然会遇到 head-of-line blocking:用 lookahead packing 把短请求先塞进 prefill,收敛 TTFT p99。
worker loop 在有 active sessions 时先 decode 再 prefill:减少 decode 被 admission 抢占,收敛 ITL p99。
prefill admission 从“按请求数”升级为“按 tokens 预算”:限制 prefill 抢占,收敛 ITL p99。
把 worker 的 prefill admission batch size 从 decode batch size 解耦:TTFT p99 直接砍掉一半。
prefix cache 开启时也能 micro-batch prefill:hit 直接 attach,miss 合并成一次 forward。