Wine & Chord

从零实现 LLM Inference：005. Streaming

10 minute read

实现流式生成（streaming），支持边生成边输出。

1 minute read

解决模型初始化问题，让训练更稳定。

4 minute read

实现 batch inference 功能，支持多条 prompt 同时推理。

2 minute read

实现 top-k top-p 这种 sampling 操作，并把整体的 prefill decode 流程规范化，对齐业界 vllm，huggingface 的实现。

less than 1 minute read

实现 kv-cache 部分，让模型能够处理推理时的 kv-cache。