从零实现 LLM Inference:017. Profiler
使用 pytorch profiler 进行性能观测。
使用 pytorch profiler 进行性能观测。
实现简单的 prefix caching,通过 prefix cache 来复用之前的 kv-cache。
实现简单的 benchmark,对比不同实现的性能。
实现 scheduler manager,支持 online scheduler 的接入。
支持简单的 openai api,实现 chat completion。