苹果CoreAI引擎测试：小模型性能显著超越MLX

在2026年全球开发者大会（WWDC）上，苹果正式推出了CoreAI引擎，用以接替已服役9年的CoreML框架。CoreML最初面向图像分类等小型静态任务，而CoreAI则专注于端侧本地推理和边缘AI场景，重点优化设备端大语言模型的推理性能，支持更灵活的模型格式和更大的内存占用。

MLX作为苹果生态中的机器学习框架，更偏向研究、训练和微调任务，常被开发者用于本地大模型的测试与部署。而CoreAI的定位则更贴近实际端侧推理，两者在性能上的对比成为开发者关注的焦点。

从首批基准测试数据来看，CoreAI呈现出“小模型强、大模型接近持平”的特征。在M4 Mac上运行Qwen3 0.6B模型时，CoreAI的解码速度约为MLX的2.47倍；在iPhone 17 Pro上，这一优势约为1.6倍。解码速度（即大语言模型生成文本时每秒能输出的token数量，常写作tok/s）是衡量模型响应速度的关键指标，数值越高，用户等待时间越短。

然而，当模型规模提升至80亿参数（Qwen3 8B，M4 Max）后，CoreAI仅比MLX快5%，两者解码性能几乎持平。这表明CoreAI的性能优势随模型规模增大而明显收窄，可能与其针对小模型的优化策略有关。

在持续负载方面，测试显示iPhone 17 Pro的GPU在长时间运行后会较快触发温控降频，从而削弱GPU路线的持续吞吐能力。而CoreML配合苹果神经引擎（ANE，Apple Neural Engine）的组合在性能保持率上实现了反超，说明在端侧持续推理场景中，ANE的能耗控制与稳定性更具优势。

横向对比其他厂商方案，针对特定模型深度优化的引擎依然更容易胜出。例如，谷歌的LiteRT-LM在运行Gemma模型时，于iPhone 17 Pro上达到每秒55.4 tokens，且RAM占用仅641 MB；而苹果MLX的内存占用高达2900 MB，是前者的4.5倍。这一对比凸显了专门优化引擎在资源效率上的巨大优势。

CoreAI的推出标志着苹果在端侧AI推理领域的战略升级，未来有望通过持续优化缩小与大模型场景的性能差距，并借助ANE等硬件协同提升整体竞争力。