从零实现 LLM Inference:020. HuggingFace GPT2 Loader
支持从 HuggingFace 加载 GPT2 权重,为后续和 vLLM/sglang 对齐 benchmark 铺路。
支持从 HuggingFace 加载 GPT2 权重,为后续和 vLLM/sglang 对齐 benchmark 铺路。
实现真正的 paged attention。
通过性能观测进行性能优化。
使用 pytorch profiler 进行性能观测。
实现简单的 prefix caching,通过 prefix cache 来复用之前的 kv-cache。