从零实现 LLM Inference:003. Sampling
实现 top-k top-p 这种 sampling 操作,并把整体的 prefill decode 流程规范化,对齐业界 vllm,huggingface 的实现。
实现 top-k top-p 这种 sampling 操作,并把整体的 prefill decode 流程规范化,对齐业界 vllm,huggingface 的实现。
实现 kv-cache 部分,让模型能够处理推理时的 kv-cache。
实现最基本的 greedy generate。
添加单独的 eval.py 文件,从而将评估与训练相分离。
实现梯度累积和梯度裁剪,提高训练稳定性。