tiny-vllmAI 工具用 C++ 和 CUDA 从零实现的 LLM 推理引擎教学项目访问网站https://github.com/jmaczan/tiny-vllm访问网站https://github.com/jmaczan/tiny-vllmtiny-vllm 是 vLLM 的教学版,用纯 C++ 和 CUDA 实现了完整的 LLM 前向推理(Llama 3.2 1B),包含 KV Cache、连续批处理、GQA、RoPE 等核心机制,适合想深入理解 GPU 推理底层原理的开发者。