Wine & Chord

从零实现 LLM Inference：003. Sampling

2 minute read

实现 top-k top-p 这种 sampling 操作，并把整体的 prefill decode 流程规范化，对齐业界 vllm，huggingface 的实现。

less than 1 minute read

实现 kv-cache 部分，让模型能够处理推理时的 kv-cache。

2 minute read

实现最基本的 greedy generate。

3 minute read

添加单独的 eval.py 文件，从而将评估与训练相分离。

5 minute read

实现梯度累积和梯度裁剪，提高训练稳定性。