从零实现 LLM Inference:030. Prefill Admission Knob
把 worker 的 prefill admission batch size 从 decode batch size 解耦:TTFT p99 直接砍掉一半。
把 worker 的 prefill admission batch size 从 decode batch size 解耦:TTFT p99 直接砍掉一半。
prefix cache 开启时也能 micro-batch prefill:hit 直接 attach,miss 合并成一次 forward。
把 worker 里的 prefill 从串行变成 micro-batch,一次 forward 吞掉一批 pending request。
把 streaming 的 add_request 从 prefill 中解耦:快速入队,由 worker 统一做 prefill + decode。
OnlineScheduler 支持 prompt_token_ids,server 去掉重复 encode,benchmark 增加 –pretok。