从零实现 LLM Inference:005. Streaming
实现流式生成(streaming),支持边生成边输出。
实现流式生成(streaming),支持边生成边输出。
解决模型初始化问题,让训练更稳定。
实现 batch inference 功能,支持多条 prompt 同时推理。
实现 top-k top-p 这种 sampling 操作,并把整体的 prefill decode 流程规范化,对齐业界 vllm,huggingface 的实现。
实现 kv-cache 部分,让模型能够处理推理时的 kv-cache。