Wine & Chord

从零实现 LLM Inference：068. Chunked Prefill（给 roseinfer 加增量 Prompt Ingestion）

3 分钟阅读

实现业界常见的 chunked prefill：把长 prompt 按 chunk 增量写入 paged KV cache，并与 decode 交错调度；提供可选开关与 online/offline benchmark，对比 chunked on/off 的延迟与吞吐。

从零实现 LLM Inference：067. 给 roseinfer 加 FlashAttention（Prefill 三选一：naive / flashinfer / flash-attn）

2 分钟阅读

在 roseinfer 的 prefill attention 上引入可插拔后端：保留原始实现，同时支持官方 flash-attn 与 flashinfer；并复用 066 的 online/offline benchmark 做自对比、自动出图。

从零实现 LLM Inference：066. Online/Offline Serving Benchmark（roseinfer vs vLLM vs SGLang）

3 分钟阅读

给 roseinfer 加一套可回归的 benchmark：同一套 trace / 参数，分别启动 roseinfer/vLLM/SGLang 的 OpenAI server 压测在线延迟（TTFT/TPOT/ITL/E2E），再做 offline throughput 对比，并自动生成论文风格图表。

从零实现 LLM Inference：065. KV 元数据数组化（_block_infos / _block_refcounts）

1 分钟阅读

KVBlockManager 的 block 元数据原来用 dict 做 global_id -> info/refcount 映射，decode 热路径会频繁查表。这里把两张表改成定长 list（按 global_id 直接索引），减少 Python dict 开销。

从零实现 LLM Inference：064. KVBlockInfo 改成可变（减少 per-token KV 元数据开销）