从零实现 LLM Inference:022. Online Scheduler Active Queue
OnlineScheduler 用 deque 维护活跃队列,去掉每 step 的全量扫描。
OnlineScheduler 用 deque 维护活跃队列,去掉每 step 的全量扫描。
给 benchmark 加上 TTFT/TPOT,并把 server 的 finished 清理从扫描改成事件。
支持从 HuggingFace 加载 GPT2 权重,为后续和 vLLM/sglang 对齐 benchmark 铺路。
实现真正的 paged attention。
通过性能观测进行性能优化。