本地跑 LLM,模型能装进内存不等于跑得够快。BaseRT 想解决的正是这层损耗:它绕开通用框架,直接围绕 Metal——Apple 平台的底层 GPU API——和统一内存设计运行时。统一内存让 CPU、GPU 共享物理内存,但访问方式和带宽仍会卡住吞吐。
BaseRT 用芯片定制的内核融合、统一内存优化和自定义调度减少开销。内核融合就是把连续算子并进一次 GPU 执行,少做中间读写和调度。作者在 M3、M4 Pro 上测试 Qwen3、Llama 3.2 和 Gemma 4 的 Q4、Q8 量化版本,称解码吞吐最高比 llama.cpp 高 1.56 倍、比 MLX 高 1.35 倍;对混合专家模型,预填充阶段的差距更大。这里的吞吐指单位时间处理或生成的 token 数,不等同于单次请求延迟。
项目支持全部 Apple M 系列设备、八种量化格式(Q2 至 FP16)及多个模型家族,并已公开代码。不过“最高吞吐”及性能数字目前均来自作者报告,供稿未提供独立复测结果。