从零实现 LLM Inference:035. Paged Attention Fast Path
paged attention decode 路径里不该构建 attention_mask;同时把 block_tables 的 H2D copy 合并成一次 async,收一点点 TPOT/throughput。
paged attention decode 路径里不该构建 attention_mask;同时把 block_tables 的 H2D copy 合并成一次 async,收一点点 TPOT/throughput。
pack admission 会把 active sessions 拉得很高:加一个 max_active_requests(max_num_seqs)把 decode backlog 的 ITL/TPOT tail 收回来。
token budget + FIFO 仍然会遇到 head-of-line blocking:用 lookahead packing 把短请求先塞进 prefill,收敛 TTFT p99。
worker loop 在有 active sessions 时先 decode 再 prefill:减少 decode 被 admission 抢占,收敛 ITL p99。
prefill admission 从“按请求数”升级为“按 tokens 预算”:限制 prefill 抢占,收敛 ITL p99。