苹果SHARP模型浏览器端运行实现
「开发者将苹果单图像3D高斯泼溅模型SHARP导出为ONNX格式,通过WebGPU在浏览器中实现无服务器推理。」
近日,一位开发者成功将苹果公司最新发布的单图像3D高斯泼溅模型SHARP(Single High-quality 3D Asset Reconstruction from a Photograph)移植到浏览器中运行。该项目基于ONNX Runtime Web和WebGPU后端,实现了完全在客户端侧完成3D重建推理,无需任何服务器端处理。
SHARP是苹果在2025年12月发布的一项前沿技术,其核心能力在于仅凭一张普通照片即可生成高质量的3D高斯泼溅表示。该模型在计算机视觉和图形学领域具有重要应用潜力,可用于快速3D内容创建、增强现实和虚拟现实场景构建。然而,苹果官方提供的参考代码基于PyTorch框架,且依赖较为复杂的计算流水线,对硬件要求较高,难以在轻量级环境中直接使用。
为了解决这一问题,开发者bring-shrubbery将SHARP的预测模块导出为ONNX(Open Neural Network Exchange)格式。ONNX是一种开放的神经网络交换格式,支持不同深度学习框架之间的模型互操作。随后,利用ONNX Runtime Web库,配合WebGPU执行提供器(Execution Provider),成功在浏览器中加载并运行该模型。

用户只需在网页中拖入一张图片,系统便会自动执行3D重建流程,最终输出一个.ply格式的点云文件,可供下载和进一步处理。整个过程完全在本地浏览器中完成,用户数据无需上传至任何服务器,既保护了隐私,也降低了延迟。
这一实现展示了ONNX Runtime Web在部署复杂3D视觉模型方面的潜力。WebGPU作为新一代Web图形API,能够高效利用GPU进行并行计算,使得原本需要高端显卡才能运行的模型得以在普通浏览器中流畅执行。开发者表示,该项目目前仍处于早期阶段,未来计划进一步优化性能,并探索支持更多输入格式和输出选项。
从技术角度看,SHARP模型的核心创新在于将3D高斯泼溅与单图像重建相结合。传统方法通常需要多视角图像或视频序列才能生成高质量的3D模型,而SHARP通过深度学习直接从单张图像推断出3D高斯参数,实现了更高效的重建流程。该模型在苹果的论文中展示了令人印象深刻的结果,能够从各种日常场景的照片中生成细节丰富的3D资产。
此次浏览器端实现的成功,意味着SHARP技术可以更广泛地应用于Web应用、在线3D设计工具、电商产品展示等场景。开发者无需安装复杂的深度学习环境,只需一个现代浏览器即可体验3D重建功能。这对于推动AI技术在创意产业和消费级应用中的普及具有重要意义。
目前,该项目已在GitHub上开源,代码仓库地址为:https://github.com/bring-shrubbery/ml-sharp-web。感兴趣的读者可以自行部署或在线体验。随着WebGPU的进一步普及和ONNX生态的完善,未来将有更多复杂的AI模型能够在浏览器中高效运行,开启全新的交互式AI应用时代。
来源:Heooo AI工具导航