从零实现 LLM Inference:015. Simple Benchmark
实现简单的 benchmark,对比不同实现的性能。
实现简单的 benchmark,对比不同实现的性能。
实现 scheduler manager,支持 online scheduler 的接入。
支持简单的 openai api,实现 chat completion。
实现简单的 inference server,使用 FastAPI 以及 uvicorn。
实现 online scheduler,展示连续批处理。