今天推荐三个有意思的项目,两个给开发者,一个给想看电视的人。

tiny-vllm:用 C++ 和 CUDA 从零写一个 LLM 推理引擎

GitHub 上 285 星,Show HN 81 分。作者 Jędrzej Maczan 花了 123 个 commit,用纯 C++17 和 CUDA 从头实现了 Llama 3.2 1B 的完整推理流程。

这个项目不是给生产环境用的。它的价值在于,你能看到 LLM 推理的每一步到底是怎么跑的:embedding 怎么取、RMSNorm 怎么并行归约、RoPE 旋转位置编码怎么算、GQA 分组查询注意力怎么让 4 个 Q 头共享 1 个 KV 头。全部是手写 CUDA kernel,没依赖 PyTorch。

项目实现了 prefill(处理全部输入 token)和 decode(逐个生成 token)两个阶段,支持 KV Cache 和连续批处理。PagedAttention 标注了"Incoming",还在开发中。

README 写得非常详细,从浮点数的 bfloat16 格式讲起,到 cuBLAS 的列主序/行主序技巧,再到为什么需要 KV Cache。如果你想搞明白 GPU 上跑 LLM 的底层原理,这个项目比读 vLLM 源码友好得多。

🔗 GitHub: https://github.com/jmaczan/tiny-vllm


Zot:一个 Go 二进制文件搞定 AI 编程

Show HN 61 分,GitHub 90 星。Zot 是一个终端里的 AI 编程代理,以单个静态 Go 二进制文件发布。不用装 Node.js,不用 Docker,扔进 PATH 就能跑。

内置 4 个工具:read(读文件)、write(写文件)、edit(精确替换)、bash(跑命令)。够用,不多不少。

它支持 25 个以上的 LLM 提供商,包括 Anthropic、OpenAI、Google Gemini、DeepSeek、Kimi、GitHub Copilot、AWS Bedrock、Azure OpenAI、xAI、Groq 等等。可以用 API key,也可以直接登录 Claude/ChatGPT 的订阅账号。

比较有意思的是它的扩展系统:通过 JSON-RPC over subprocess 协议,任何语言都能写插件。插件可以注册斜杠命令、暴露新工具、拦截工具调用做权限控制。还有个 skills 系统,用 YAML frontmatter 的 markdown 文件定义,模型按需加载。

四种运行模式:交互式 TUI(带流式输出)、print 模式(一行输出给管道用)、JSON 模式(NDJSON 给脚本/CI 用)、RPC 模式(长驻子进程,可以嵌入其他应用)。

如果你受够了 Node.js 生态的 AI 编程工具,Zot 值得试试。

🔗 官网: https://www.zot.sh 🔗 GitHub: https://github.com/patriceckhart/zot


TV Explorer:免费看全球 11000+ 直播频道

Show HN 104 分。TV Explorer 是一个 IPTV 播放器前端,聚合了来自 200 多个国家、11000 多个免费公开的直播电视频道。数据源来自 GitHub 上的开源 IPTV 项目,都是合法的免费公开频道。

功能挺全:可以投屏到电视(Chromecast)、多画面同时看好几个台、DVR 录制、收藏夹、热键栏。搜索支持按分类、国家、语言三重筛选,组合使用。

不需要登录,不收集用户数据。覆盖欧洲 2348 个频道、北美 2343 个、亚洲 1744 个、南美 818 个。分类有新闻、体育、娱乐、音乐、少儿等。

如果你在国外想看国内的电视台,或者想看看其他国家的新闻频道长什么样,这个工具很方便。

🔗 官网: https://tvexplorer.live