You may also enjoy
从零实现 LLM Inference:018. Performance
7 minute read
通过性能观测进行性能优化。
从零实现 LLM Inference:017. Profiler
6 minute read
使用 pytorch profiler 进行性能观测。
从零实现 LLM Inference:016. Simple Prefix Caching
8 minute read
实现简单的 prefix caching,通过 prefix cache 来复用之前的 kv-cache。
从零实现 LLM Inference:015. Simple Benchmark
3 minute read
实现简单的 benchmark,对比不同实现的性能。