苹果CoreAI引擎测试:小模型性能显著超越MLX
「苹果推出CoreAI引擎取代CoreML,专注端侧大模型推理。测试显示,在M4 Mac上运行Qwen3 0.6B时,CoreAI解码速度是MLX的2.47倍,但优势随模型规模增大而收窄。」
在2026年全球开发者大会(WWDC)上,苹果正式推出了CoreAI引擎,用以接替已服役9年的CoreML框架。CoreML最初面向图像分类等小型静态任务,而CoreAI则专注于端侧本地推理和边缘AI场景,重点优化设备端大语言模型的推理性能,支持更灵活的模型格式和更大的内存占用。
MLX作为苹果生态中的机器学习框架,更偏向研究、训练和微调任务,常被开发者用于本地大模型的测试与部署。而CoreAI的定位则更贴近实际端侧推理,两者在性能上的对比成为开发者关注的焦点。
从首批基准测试数据来看,CoreAI呈现出“小模型强、大模型接近持平”的特征。在M4 Mac上运行Qwen3 0.6B模型时,CoreAI的解码速度约为MLX的2.47倍;在iPhone 17 Pro上,这一优势约为1.6倍。解码速度(即大语言模型生成文本时每秒能输出的token数量,常写作tok/s)是衡量模型响应速度的关键指标,数值越高,用户等待时间越短。
然而,当模型规模提升至80亿参数(Qwen3 8B,M4 Max)后,CoreAI仅比MLX快5%,两者解码性能几乎持平。这表明CoreAI的性能优势随模型规模增大而明显收窄,可能与其针对小模型的优化策略有关。
在持续负载方面,测试显示iPhone 17 Pro的GPU在长时间运行后会较快触发温控降频,从而削弱GPU路线的持续吞吐能力。而CoreML配合苹果神经引擎(ANE,Apple Neural Engine)的组合在性能保持率上实现了反超,说明在端侧持续推理场景中,ANE的能耗控制与稳定性更具优势。
横向对比其他厂商方案,针对特定模型深度优化的引擎依然更容易胜出。例如,谷歌的LiteRT-LM在运行Gemma模型时,于iPhone 17 Pro上达到每秒55.4 tokens,且RAM占用仅641 MB;而苹果MLX的内存占用高达2900 MB,是前者的4.5倍。这一对比凸显了专门优化引擎在资源效率上的巨大优势。
CoreAI的推出标志着苹果在端侧AI推理领域的战略升级,未来有望通过持续优化缩小与大模型场景的性能差距,并借助ANE等硬件协同提升整体竞争力。
来源:Heooo AI工具导航