BaseRT 挑战 Apple 芯片推理纪录

本地跑 LLM，模型能装进内存不等于跑得够快。BaseRT 想解决的正是这层损耗：它绕开通用框架，直接围绕 Metal——Apple 平台的底层 GPU API——和统一内存设计运行时。统一内存让 CPU、GPU 共享物理内存，但访问方式和带宽仍会卡住吞吐。

BaseRT 用芯片定制的内核融合、统一内存优化和自定义调度减少开销。内核融合就是把连续算子并进一次 GPU 执行，少做中间读写和调度。作者在 M3、M4 Pro 上测试 Qwen3、Llama 3.2 和 Gemma 4 的 Q4、Q8 量化版本，称解码吞吐最高比 llama.cpp 高 1.56 倍、比 MLX 高 1.35 倍；对混合专家模型，预填充阶段的差距更大。这里的吞吐指单位时间处理或生成的 token 数，不等同于单次请求延迟。

项目支持全部 Apple M 系列设备、八种量化格式（Q2 至 FP16）及多个模型家族，并已公开代码。不过“最高吞吐”及性能数字目前均来自作者报告，供稿未提供独立复测结果。