Wine & Chord

从零实现 LLM Inference：022. Online Scheduler Active Queue

2 minute read

OnlineScheduler 用 deque 维护活跃队列，去掉每 step 的全量扫描。

3 minute read

给 benchmark 加上 TTFT/TPOT，并把 server 的 finished 清理从扫描改成事件。

5 minute read

支持从 HuggingFace 加载 GPT2 权重，为后续和 vLLM/sglang 对齐 benchmark 铺路。

10 minute read

实现真正的 paged attention。

7 minute read

通过性能观测进行性能优化。