tiny-vllm

AI 工具

用 C++ 和 CUDA 从零实现的 LLM 推理引擎教学项目

tiny-vllm 是 vLLM 的教学版，用纯 C++ 和 CUDA 实现了完整的 LLM 前向推理（Llama 3.2 1B），包含 KV Cache、连续批处理、GQA、RoPE 等核心机制，适合想深入理解 GPU 推理底层原理的开发者。

AI 工具

用 C++ 和 CUDA 从零实现的 LLM 推理引擎教学项目

tiny-vllm 是 vLLM 的教学版，用纯 C++ 和 CUDA 实现了完整的 LLM 前向推理（Llama 3.2 1B），包含 KV Cache、连续批处理、GQA、RoPE 等核心机制，适合想深入理解 GPU 推理底层原理的开发者。