从零实现 LLM Inference:028. Prefill Micro-Batching
把 worker 里的 prefill 从串行变成 micro-batch,一次 forward 吞掉一批 pending request。
把 worker 里的 prefill 从串行变成 micro-batch,一次 forward 吞掉一批 pending request。
把 streaming 的 add_request 从 prefill 中解耦:快速入队,由 worker 统一做 prefill + decode。
OnlineScheduler 支持 prompt_token_ids,server 去掉重复 encode,benchmark 增加 –pretok。
把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。
补齐 SchedulerManager 的 close,优雅停掉 worker 并结束 streaming。