从零实现 LLM Inference:025. Scheduler Public API
把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。
把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。
补齐 SchedulerManager 的 close,优雅停掉 worker 并结束 streaming。
server worker 用 threading.Event 驱动唤醒,去掉 idle 轮询 sleep。
OnlineScheduler 用 deque 维护活跃队列,去掉每 step 的全量扫描。
给 benchmark 加上 TTFT/TPOT,并把 server 的 finished 清理从扫描改成事件。