Sitemap

从 OpenAI Responses API 和 openai/codex 源码解释 Codex 如何把 base instructions、AGENTS.md、skills、apps、memory、tracked settings diff、compaction、rollout 和 trace 组织成可恢复的模...

Codex 源码剖析：002. 工具、审批与沙箱

11 分钟阅读

从 ToolSpec、ResponseItem、ToolCall、ToolRegistry 到 approval/sandbox，追踪 Codex 如何把模型工具意图变成可审计、可恢复、可拒绝的受控执行。

Codex 源码剖析：001. 从 TUI 到 run_turn

7 分钟阅读

从用户输入、TUI、in-process App Server、core Session 到 run_turn，重建 Codex 一次 turn 的协议边界、模型上下文和事件回流。

从零实现 LLM Inference：077. roseinfer vs vLLM vs SGLang vs TensorRT-LLM（baseline）

5 分钟阅读

用仓库自带的 online/offline serving benchmark 跑一轮 baseline，对齐参数和环境，比较 roseinfer 与 vLLM / SGLang / TensorRT-LLM 的在线延迟（P50/P90/P99）与离线吞吐。

从零实现 LLM Inference：076. 继续追性能：和 SGLang / TensorRT-LLM 的差距到底在哪？

8 分钟阅读

把 074/075 的 multiprocess serving 稳住之后，继续看 online/offline 的性能差距：roseinfer 的 decode（TPOT/ITL）已经能压住 vLLM，但 TTFT 还是明显落后 SGLang/TRT-LLM。本文先把现象拆清楚，再做两个增量试验：mpasync...

从零实现 LLM Inference：075. Online P99 长尾时延：从 700ms 尾巴到 vLLM 级别

3 分钟阅读

071–074 把 multiprocess serving 的工程税压住之后，online 侧的 P99 还是明显炸尾。顺着 trace/metrics 把锅拆开，发现罪魁祸首其实很朴素：Python GC jitter。照着 vLLM/SGLang 的做法加上 GC freeze，再把 OpenAI SSE ...

从零实现 LLM Inference：074. Multiprocess Serving 极致优化：Ablation / 稳定性 / 拓扑绑核 / Async Streaming / Profiling

8 分钟阅读

把 071 的 API/engine 多进程拆分继续榨：thread cap、topology-aware affinity、cmd budget、pipe bytes IPC、flat events、offline 快计数、async streaming……所有点都有开关、默认按正收益打开；再用一套 onlin...

从零实现 LLM Inference：073. Benchmark + Profiling Harness（torch profiler / nsys）& 加入 TensorRT-LLM 对比

4 分钟阅读

把 serving benchmark 做成“可回归 + 可解释”：在不污染 benchmark 数据的前提下，给 online/offline 增加独立 profiling stage（PyTorch profiler + Nsight Systems），并把 TensorRT-LLM 也纳入同一套公平对比；同...

从零实现 LLM Inference：072. CPU/GPU Overlap Scheduler（把 roseinfer 的 decode loop 做成 pipeline）

3 分钟阅读

参考 SGLang/vLLM/TensorRT-LLM 的 overlap scheduling：用 future-token 占位 + GPU FutureMap + one-step delayed output，把 scheduler 从“GPU->CPU 同步 + CPU 串行”改成真正的 CPU/...

从零实现 LLM Inference：071. Multiprocess Serving（engine process）让 roseinfer 的 Online 延迟稳定下来

3 分钟阅读

做一次业界级调研：vLLM/SGLang/TensorRT-LLM 的进程拆分怎么做；再把 roseinfer 从“一个进程干所有事”改成“API 进程 + engine 进程”，用可回归的 online/offline benchmark 跑出数据与图。

从零实现 LLM Inference：070. Fused MLP + Fused Sampler + Fused KV Append（把 MLP epilogue / sampling / KV writeback 也做成默认开启）

4 分钟阅读

继续补齐 roseinfer 的“业内默认”推理优化：把 MLP epilogue（bias+GELU + bias+residual）做成 Triton kernel，把 sampling（top-k/top-p + sample）接到 flashinfer 的 from_logits GPU kernel，并...

从零实现 LLM Inference：069. Operator Fusion（给 roseinfer 补齐 attention 之外的算子融合）

3 分钟阅读

业内推理引擎的性能不只靠 attention：decode(T=1) 下 LN/残差/激活这类小算子会变成“launch + 带宽”热点。本文调研 vLLM/SGLang/TensorRT-LLM 的融合思路，并在 roseinfer 落地 Triton fused add+LayerNorm（in-place）...

从零实现 LLM Inference：068. Chunked Prefill（给 roseinfer 加增量 Prompt Ingestion）

3 分钟阅读

实现业界常见的 chunked prefill：把长 prompt 按 chunk 增量写入 paged KV cache，并与 decode 交错调度；提供可选开关与 online/offline benchmark，对比 chunked on/off 的延迟与吞吐。

从零实现 LLM Inference：067. 给 roseinfer 加 FlashAttention（Prefill 三选一：naive / flashinfer / flash-attn）

2 分钟阅读

在 roseinfer 的 prefill attention 上引入可插拔后端：保留原始实现，同时支持官方 flash-attn 与 flashinfer；并复用 066 的 online/offline benchmark 做自对比、自动出图。

从零实现 LLM Inference：066. Online/Offline Serving Benchmark（roseinfer vs vLLM vs SGLang）

3 分钟阅读

给 roseinfer 加一套可回归的 benchmark：同一套 trace / 参数，分别启动 roseinfer/vLLM/SGLang 的 OpenAI server 压测在线延迟（TTFT/TPOT/ITL/E2E），再做 offline throughput 对比，并自动生成论文风格图表。

从零实现 LLM Inference：065. KV 元数据数组化（_block_infos / _block_refcounts）

1 分钟阅读

KVBlockManager 的 block 元数据原来用 dict 做 global_id -> info/refcount 映射，decode 热路径会频繁查表。这里把两张表改成定长 list（按 global_id 直接索引），减少 Python dict 开销。

从零实现 LLM Inference：064. KVBlockInfo 改成可变（减少 per-token KV 元数据开销）

1 分钟阅读

KV append 的热路径里，每层每 token 都要更新一次 block length。之前用 NamedTuple 需要不断创建新对象并回写 dict；这版改成 slots dataclass，length 原地自增，减少 Python 分配和重复查表。

从零实现 LLM Inference：063. Triton batched KV COW clone（替换 index_select/index_copy）

2 分钟阅读

prefix cache hit 后，多条 session 会共享同一批 KV blocks；第一次 decode 写入时如果 last block 还没写满，就会触发 COW：先 clone block 再 append token。原实现用 index_select/index_copy 搬整块 KV；这版加...

从零实现 LLM Inference：062. Triton KV append identity-pos（full batch 但 pos 不一致）

1 分钟阅读

上一版 full-batch KV-append 只覆盖 pos 常量的稳态；但只要 prompt 长度不一致，decode 的 pos 就会按 request 分叉，仍然要构造 batch_idx/pos 这类 index tensor。这版补一个 identity batch 的 Triton kernel：...

从零实现 LLM Inference：061. Triton KV append full-batch fast path（少分配 index tensor）

2 分钟阅读

batch decode 稳态里，经常满足 fast_batch_idx 是 [0..B-1] 且同一步 pos 对整个 batch 是常量；这时 Triton KV append 还在每 step 构造 batch_idx/pos 这类小 tensor。这个 PR 新增 full-batch Triton ke...

从零实现 LLM Inference：060. KV append identity fast path（少做一次 index_select）

1 分钟阅读

append_token_batch 里 fast_batch_idx 很多时候就是 [0..B-1]；之前每层都会 index_select 把 key_new/value_new 重新拷一遍，还会构造 pos_t。这个小改动在 identity batch 时直接复用 key_new/value_new，并且...

从零实现 LLM Inference：059. Batched KV rollover（block 满了也别退化成 for-loop）

1 分钟阅读

append_token_batch 之前只覆盖 len<block_size 的 fast path；一旦 last block 满了（len==block_size）就会退化成逐 request 的 append_token。这个点会制造 ITL 的尖刺。这版把 rollover 也塞回 batch：先...

从零实现 LLM Inference：058. Prefix Cache logits 常驻 device（减少 hit 的 CPU/GPU 拷贝）

1 分钟阅读

prefix cache hit 时我们还在把 last_logits 从 CPU 拷回 GPU；这版把 entry 的 last_logits 直接存成 device 上的一份小 clone，hit 变成真正的零拷贝。

从零实现 LLM Inference：057. Batched KV COW（shared block 的 append_token_batch fast path）

3 分钟阅读

prefix cache 复用会让 decode 的最后一个 KV block refcount>1；之前 append_token_batch 直接退化成逐 request 的 append_token + copy-on-write，CPU/GPU overhead 都很明显。这版把 COW clone...

从零实现 LLM Inference：056. Prefix Cache Radix Tree（longest prefix 查找加速）

3 分钟阅读

055 做了 longest-prefix reuse，但 longest-prefix 查询还是 O(N) 扫描；这版用 token trie 替换掉 scan，把 cache miss 的 longest-prefix 查找从 ms 级降到 us 级，减少 scheduler CPU overhead。

从零实现 LLM Inference：055. Prefix Cache Longest Prefix Reuse（longest prefix KV 复用）

4 分钟阅读

prefix cache 之前只能 exact hit；这版做 longest-prefix 复用：命中“缓存 prompt 是新 prompt 的前缀”时直接挂载 KV blocks，然后用 decode(T=1) teacher-forcing 补齐 suffix。顺手把 paged-attn Triton ...

从零实现 LLM Inference：054. Prefix Cache Token Key（prompt string -> token ids）

3 分钟阅读

prefix cache 之前用 prompt 字符串当 key；在 pretok 场景里，prompt 文本不同但 token ids 相同会导致 cache miss。改成优先用 prompt_token_ids tuple 作为 key，并加了一个 benchmark knob 复现/量化收益。

从零实现 LLM Inference：053. CUDA Graph Host Buffers（把 metadata copy 变成真·non_blocking）

2 分钟阅读

paged-attn + CUDA Graph decode 里，每步都在 torch.tensor(list) 然后 copy_ 到 GPU，既有分配也不是真正 non_blocking。改成复用 pinned host buffer + numpy view 直接写入，吞吐提升、TPOT 下降。

从零实现 LLM Inference：052. Batched Worker Lookups（减少 streaming decode 的锁开销）

2 分钟阅读

SchedulerManager 的 worker loop 里每个 token 都会进一次 lock 取 q/detok/state；改成每步 decode 批量抓取一次，减少 lock acquire/release 和热点 dict 访问。

从零实现 LLM Inference：051. Fast TopK/TopP Sampling（避开 full-vocab sort/scatter）

3 分钟阅读

之前 top_k+top_p 采样每步都会对整个 vocab 做 sort/gather，开销巨大。把采样改成直接在 sorted topk 空间里做 top-p + multinomial，并顺手把 top_k clamp 到 vocab size。

从零实现 LLM Inference：050. Stream Interval（每 N token flush 一次）

2 分钟阅读

streaming 如果每个 token 都 q.put + HTTP flush，会把 Python/IO overhead 放大。引入 stream_interval：第一段内容立刻发，后续每 N 个 token 合并成一个 chunk 再发，吞吐和 tail latency 都能更稳。

从零实现 LLM Inference：049. Max Inflight Requests（过载保护 / 429）

3 分钟阅读

burst streaming 下 unlimited inflight 会把排队延迟炸到 p99，但吞吐几乎不变。给 SchedulerManager 加 max_inflight_requests：超过就直接拒绝（HTTP 429），benchmark_streaming 也打印 Rejected 与 rej...

从零实现 LLM Inference：048. Streaming Submit Schedule（absolute vs relative）

3 分钟阅读

submit_interval_ms 如果用“sleep after each add_request”的相对口径，提交路径一变快，实际到达率就变了，TTFT 会被排队形态污染。给 benchmark_streaming 加 submit_scheudle=absolute，用 t0+i*interval 固定到...

从零实现 LLM Inference：047. Streaming Tokenize Workers（把 encode 挪出 add_request）

3 分钟阅读

add_request 里同步做 tokenizer.encode 会放大 submit wall / p99。引入 tokenize_workers 线程池，把 tokenization 变成后台阶段，并把 TTFT 拆到 tokenize/queue/prefill 三段。

从零实现 LLM Inference：046. Streaming Pretok（绕过 tokenizer.encode）

2 分钟阅读

streaming bench 里 add_request 的 p99 很容易被 tokenizer.encode 的 CPU 开销污染。增加 add_request(prompt_token_ids=…) + benchmark_streaming –pretok，把 tokenization 从提交路径挪出去。

从零实现 LLM Inference：045. Streaming TTFT 拆解（Queue wait vs Prefill）

2 分钟阅读

TTFT 只是一个总数：里面既有排队等待，也有 prefill 的真实计算。只看 TTFT 很容易把优化方向搞反。给 SchedulerManager 记录 admit timestamp，并在 benchmark_streaming 里打印 TTFT breakdown。

从零实现 LLM Inference：044. Streaming Benchmark Warmup + Repeat（把 cold-start 拆出去）

2 分钟阅读

paged-attn / CUDA Graph 的第一次请求会把 Triton JIT 和 graph capture 算进 TTFT/吞吐，导致对比结论失真。给 benchmark_streaming 加 warmup-runs + repeat-runs，把冷启动和稳态拆开。

从零实现 LLM Inference：043. Streaming Benchmark 开关（paged-attn / CUDA Graph / NVTX）

2 分钟阅读

streaming 场景想看 TTFT/TPOT/ITL 的 p99，但之前不好一条命令切换 decode 的快路径，也不好给 nsys 挂 NVTX。补齐 benchmark 的三个开关。

从零实现 LLM Inference：042. Triton KV Append（把 KV 写入从 4 个 op 合成 1 个 kernel）

2 分钟阅读

decode 每层都要把 (k,v) 写进 KV cache。原来是 index_select + index_put 四连。先用一个 Triton kernel fuse 成一次写入，并加上 batch size gate，避免小 batch 退化。

从零实现 LLM Inference：041. Batched Sampler（干掉 per-request .item() 同步）

3 分钟阅读

decode 已经很快了但还不够？很多时候慢在 sampling：每步 B 次 .item() 会把 GPU pipeline 打散。把采样做成 batch，一步只同步一次。

从零实现 LLM Inference：040. CUDA Graph 加速 paged decode

2 分钟阅读

decode 热路径里 kernel launch 太密？把一次 decode step 捕获成 CUDA Graph，replay 省掉大量 CPU dispatch。

从零实现 LLM Inference：039. Triton Autotune（paged-attn decode kernel）

1 分钟阅读

把 paged-attn decode kernel 的 num_warps/num_stages 从“拍脑袋常量”变成 Triton autotune；结果在 decode 热路径里反而回退了。

从零实现 LLM Inference：038. Batched KV Append Fast Path

1 分钟阅读

paged decode 还在慢？很多时候瓶颈不在 attention，而是在每步 L*B 次的 KV 写入：做一个 batch fast-path，直接把 Python 循环砍掉。

从零实现 LLM Inference：037. Paged Attention Slot Mapping

2 分钟阅读

block_table 不再每步 gather/copy：把它常驻 GPU，用 slot_mapping 让 triton kernel 直接索引，decode 吞吐更稳。

从零实现 LLM Inference：036. Paged Attention Block Table Cache

3 分钟阅读

paged attention decode 每步重建 block_table 太浪费：按 session 缓存 row，只在 block 变化时更新，decode 吞吐和 TPOT 更稳。

从零实现 LLM Inference：035. Paged Attention Fast Path

3 分钟阅读

paged attention decode 路径里不该构建 attention_mask；同时把 block_tables 的 H2D copy 合并成一次 async，收一点点 TPOT/throughput。

从零实现 LLM Inference：034. Max Active Requests

4 分钟阅读

pack admission 会把 active sessions 拉得很高：加一个 max_active_requests（max_num_seqs）把 decode backlog 的 ITL/TPOT tail 收回来。

从零实现 LLM Inference：033. Prefill Admission Packing

6 分钟阅读

token budget + FIFO 仍然会遇到 head-of-line blocking：用 lookahead packing 把短请求先塞进 prefill，收敛 TTFT p99。

从零实现 LLM Inference：032. Decode-first Worker Loop

4 分钟阅读

worker loop 在有 active sessions 时先 decode 再 prefill：减少 decode 被 admission 抢占，收敛 ITL p99。

从零实现 LLM Inference：031. Prefill Token Budget

5 分钟阅读

prefill admission 从“按请求数”升级为“按 tokens 预算”：限制 prefill 抢占，收敛 ITL p99。

从零实现 LLM Inference：030. Prefill Admission Knob

3 分钟阅读

把 worker 的 prefill admission batch size 从 decode batch size 解耦：TTFT p99 直接砍掉一半。

从零实现 LLM Inference：029. Prefix Cache + Prefill Micro-Batching

9 分钟阅读

prefix cache 开启时也能 micro-batch prefill：hit 直接 attach，miss 合并成一次 forward。

从零实现 LLM Inference：028. Prefill Micro-Batching

4 分钟阅读

把 worker 里的 prefill 从串行变成 micro-batch，一次 forward 吞掉一批 pending request。

从零实现 LLM Inference：027. Pending Queue Admission

7 分钟阅读

把 streaming 的 add_request 从 prefill 中解耦：快速入队，由 worker 统一做 prefill + decode。

从零实现 LLM Inference：026. Reuse Tokenization

1 分钟阅读

OnlineScheduler 支持 prompt_token_ids，server 去掉重复 encode，benchmark 增加 –pretok。

从零实现 LLM Inference：025. Scheduler Public API

1 分钟阅读

把 server/benchmark 对 OnlineScheduler._sessions 的直接访问收口。

从零实现 LLM Inference：024. Graceful Shutdown

1 分钟阅读

补齐 SchedulerManager 的 close，优雅停掉 worker 并结束 streaming。

从零实现 LLM Inference：023. Worker Wakeup Event

1 分钟阅读

server worker 用 threading.Event 驱动唤醒，去掉 idle 轮询 sleep。

从零实现 LLM Inference：022. Online Scheduler Active Queue

2 分钟阅读

OnlineScheduler 用 deque 维护活跃队列，去掉每 step 的全量扫描。

从零实现 LLM Inference：021. TTFT/TPOT + Finished Queue

3 分钟阅读

给 benchmark 加上 TTFT/TPOT，并把 server 的 finished 清理从扫描改成事件。

从零实现 LLM Inference：020. HuggingFace GPT2 Loader

5 分钟阅读

支持从 HuggingFace 加载 GPT2 权重，为后续和 vLLM/sglang 对齐 benchmark 铺路。

从零实现 LLM Inference：019. Paged Attention

10 分钟阅读

实现真正的 paged attention。

从零实现 LLM Inference：018. Performance

7 分钟阅读

通过性能观测进行性能优化。

从零实现 LLM Inference：017. Profiler

6 分钟阅读

使用 pytorch profiler 进行性能观测。

从零实现 LLM Inference：016. Simple Prefix Caching

8 分钟阅读

实现简单的 prefix caching，通过 prefix cache 来复用之前的 kv-cache。

从零实现 LLM Inference：015. Simple Benchmark

3 分钟阅读

实现简单的 benchmark，对比不同实现的性能。

从零实现 LLM Inference：014. Scheduler Manager

4 分钟阅读

实现 scheduler manager，支持 online scheduler 的接入。

从零实现 LLM Inference：013. Simple OpenAI API

4 分钟阅读

支持简单的 openai api，实现 chat completion。

从零实现 LLM Inference：012. Server

1 分钟阅读

实现简单的 inference server，使用 FastAPI 以及 uvicorn。

从零实现 LLM Inference：011. Online Scheduler

4 分钟阅读

实现 online scheduler，展示连续批处理。

从零实现 LLM Inference：010. Use KV Block

6 分钟阅读

让 kv block manager 真正发挥作用，实现 python 版 paged attention。

从零实现 LLM Inference：009. Batch Decoding

5 分钟阅读

实现 batch decode，并隐式实现 continuous batching。

从零实现 LLM Inference：008. KV Block Manager

4 分钟阅读

实现基础的 kv block manager

从零实现 LLM Inference：007. Offline Scheduler

3 分钟阅读

实现离线调度器，支持并发请求。

从零实现 LLM Inference：006. Inference Session

10 分钟阅读

添加 Inference Session，支持并发请求。

从零实现 LLM Inference：005. Streaming

10 分钟阅读

实现流式生成（streaming），支持边生成边输出。

从零实现 LLM Training：025. Init

1 分钟阅读

解决模型初始化问题，让训练更稳定。

从零实现 LLM Inference：004. Batch

4 分钟阅读

实现 batch inference 功能，支持多条 prompt 同时推理。

从零实现 LLM Inference：003. Sampling

2 分钟阅读

实现 top-k top-p 这种 sampling 操作，并把整体的 prefill decode 流程规范化，对齐业界 vllm，huggingface 的实现。

从零实现 LLM Inference：002. KV-Cache

少于 1 分钟阅读

实现 kv-cache 部分，让模型能够处理推理时的 kv-cache。

从零实现 LLM Inference：001. Generate

2 分钟阅读

实现最基本的 greedy generate。

从零实现 LLM Training：024. Eval

3 分钟阅读

添加单独的 eval.py 文件，从而将评估与训练相分离。

从零实现 LLM Training：023. Gradient Accumulation and Clip Gradient Norm

5 分钟阅读

实现梯度累积和梯度裁剪，提高训练稳定性。

从零实现 LLM Training：022. FineWebNPYDataset

5 分钟阅读

引入 FineWebNPYDataset 数据集 class。

从零实现 LLM Training：021. WandB

2 分钟阅读

使用 WandB 记录训练过程，方便后续分析。

从零实现 LLM Training：020. PyTorch Profiler and NVTX

8 分钟阅读

使用 PyTorch profiler 与 NVTX 捕捉 trace，深入分析训练性能瓶颈。

从零实现 LLM Training：019. Activation Checkpoint

8 分钟阅读

通过 activation checkpointing 以重计算换显存，优化大模型训练。

从零实现 LLM Training：018. LR Cosine Scheduler

7 分钟阅读

为学习率引入 cosine scheduler，并将调度状态写入 checkpoint。

从零实现 LLM Training：017. Save Config to Checkpoint

1 分钟阅读

将模型配置写入 checkpoint，简化加载与推理时的配置管理。

从零实现 LLM Training：016. Multi Doc Dataset

4 分钟阅读

重构 Dataset，支持多文档输入与更合理的切分策略。

从零实现 LLM Training：015. Simple Generate

3 分钟阅读

在完成基础训练后，实现一个最简单的文本生成脚本。

从零实现 LLM Training：014. Use Real Data

12 分钟阅读

将 toy 数据集替换为更真实的文本数据，完善训练链路。

从零实现 LLM Training：013. Eval and Logging

6 分钟阅读

加入验证集评估和日志记录，用 loss 与 PPL 监控训练效果。

从零实现 LLM Training：012. Argparse

7 分钟阅读

为训练脚本引入 argparse 命令行参数，向工业级实现迈进。

从零实现 LLM Training：011. Checkpoints

4 分钟阅读

为训练过程加入 checkpoint 容错机制，支持从中间状态恢复。

从零实现 LLM Training：010. Mixed Precision

2 分钟阅读

在完成张量并行后，引入混合精度训练以提高算力利用率。

从零实现 LLM Training：009. True Tensor Parallel for Attention

2 分钟阅读

通过按 head 维度切分 QKV，让 Attention 形成真正的张量并行。

从零实现 LLM Training：008. Use Row Parallel for Attention

2 分钟阅读

将 Row Parallel Linear 引入 Attention 层，搭配 Column Parallel 完成张量并行。

从零实现 LLM Training：007. Use Row Parallel for FFN

1 分钟阅读

把 Row Parallel Linear 引入 FFN 模块，配合 Column Parallel 完成张量并行。

从零实现 LLM Training：006. Row Parallel

2 分钟阅读

在已有 Column Parallel 基础上实现 Row Parallel Linear。

从零实现 LLM Training：005. Use Column Parallel

2 分钟阅读

把 Column Parallel Linear 集成到 GPTModel 中并用训练循环验证。

从零实现 LLM Training：004. Column Parallel

2 分钟阅读

引入列张量并行（Column Parallel）作为张量并行的第一步。

从零实现 LLM Training：003. Simple DDP

2 分钟阅读

使用 PyTorch DDP 实现最简单的数据并行训练。

从零实现 LLM Training：002. Loss and Train Loop

2 分钟阅读

为 mini-GPT 加上最基本的 loss 和最小 train loop。

从零实现 LLM Training：001. mini-GPT

2 分钟阅读

从零实现 mini-GPT 的配置、模型和简单前向。

GAE 推导

3 分钟阅读

Generalized Advantage Estimation（GAE）推导与直觉

数据并行

1 分钟阅读

数据并行

训练时的显存开销

5 分钟阅读

训练时的显存开销

SGLang

3 分钟阅读

SGLang

手撕 Softmax 和 Cross-entropy 公式及代码

3 分钟阅读

回归基础，返璞归真

Sitemap

Pages

Posts