Wine & Chord

从零实现 LLM Inference：033. Prefill Admission Packing

6 分钟阅读

token budget + FIFO 仍然会遇到 head-of-line blocking：用 lookahead packing 把短请求先塞进 prefill，收敛 TTFT p99。

4 分钟阅读

worker loop 在有 active sessions 时先 decode 再 prefill：减少 decode 被 admission 抢占，收敛 ITL p99。

5 分钟阅读

prefill admission 从“按请求数”升级为“按 tokens 预算”：限制 prefill 抢占，收敛 ITL p99。

3 分钟阅读

把 worker 的 prefill admission batch size 从 decode batch size 解耦：TTFT p99 直接砍掉一半。

9 分钟阅读

prefix cache 开启时也能 micro-batch prefill：hit 直接 attach，miss 合并成一次 forward。