Wine & Chord

从零实现 LLM Inference：028. Prefill Micro-Batching

4 分钟阅读

把 worker 里的 prefill 从串行变成 micro-batch，一次 forward 吞掉一批 pending request。

7 分钟阅读

把 streaming 的 add_request 从 prefill 中解耦：快速入队，由 worker 统一做 prefill + decode。

1 分钟阅读

OnlineScheduler 支持 prompt_token_ids，server 去掉重复 encode，benchmark 增加 –pretok。

1 分钟阅读

把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。

1 分钟阅读

补齐 SchedulerManager 的 close，优雅停掉 worker 并结束 streaming。