从零实现 LLM Inference:012. Server
实现简单的 inference server,使用 FastAPI 以及 uvicorn。
实现简单的 inference server,使用 FastAPI 以及 uvicorn。
实现 online scheduler,展示连续批处理。
让 kv block manager 真正发挥作用,实现 python 版 paged attention。
实现 batch decode,并隐式实现 continuous batching。
实现基础的 kv block manager