Wine & Chord

从零实现 LLM Inference：030. Prefill Admission Knob

3 minute read

把 worker 的 prefill admission batch size 从 decode batch size 解耦：TTFT p99 直接砍掉一半。

9 minute read

prefix cache 开启时也能 micro-batch prefill：hit 直接 attach，miss 合并成一次 forward。

4 minute read

把 worker 里的 prefill 从串行变成 micro-batch，一次 forward 吞掉一批 pending request。

7 minute read

把 streaming 的 add_request 从 prefill 中解耦：快速入队，由 worker 统一做 prefill + decode。

1 minute read

OnlineScheduler 支持 prompt_token_ids，server 去掉重复 encode，benchmark 增加 –pretok。