从零实现 LLM Inference:027. Pending Queue Admission
把 streaming 的 add_request 从 prefill 中解耦:快速入队,由 worker 统一做 prefill + decode。
把 streaming 的 add_request 从 prefill 中解耦:快速入队,由 worker 统一做 prefill + decode。
OnlineScheduler 支持 prompt_token_ids,server 去掉重复 encode,benchmark 增加 –pretok。
把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。
补齐 SchedulerManager 的 close,优雅停掉 worker 并结束 streaming。
server worker 用 threading.Event 驱动唤醒,去掉 idle 轮询 sleep。