苹果开源 SHARP 模型，1 秒内 AI 让照片变 3D“活”起来

来源：IT之家 11 小时前

IT之家 12 月 18 日消息，科技媒体 9to5Mac 昨日（12 月 17 日）发布博文，报道称苹果公司开源名为 SHARP 的新型 AI 模型，该技术能在一秒内将单张 2D 照片转换为逼真的 3D 场景。

IT之家援引博文介绍，苹果发布名为《一秒内实现清晰的单目视图合成》（Sharp Monocular View Synthesis in Less Than a Second）论文，详细介绍了如何训练模型，在接收用户输入的一张普通 2D 照片后，能在一秒钟内重建出具有真实物理比例的 3D 场景。

与需要数分钟甚至数小时处理的传统方案相比，SHARP 将合成速度提升了三个数量级，实现了近乎实时的 3D 转换体验。

在技术原理上，SHARP 采用了先进的 3D 高斯泼溅技术（3D Gaussian Splatting）。简单来说，它将 3D 场景视为无数个带有颜色和光影信息的“模糊光团”（高斯球）。

传统的 3D 重建通常需要对同一场景拍摄数十甚至上百张不同角度的照片，再通过复杂的计算来确定这些光团的位置。然而，苹果通过使用海量的合成数据与真实世界数据训练 SHARP，让其掌握了通用的深度与几何规律。

因此，当面对一张全新照片时，SHARP 能通过神经网络的单次前馈传递，直接预测出数百万个 3D 高斯球的位置与外观，瞬间完成建模。

除了速度惊人，SHARP 在成像质量上也树立了新标杆。根据苹果公布的论文数据，该模型在多个基准测试数据集上均取得了优异成绩。

与此前业内最强的模型相比，SHARP 将 LPIPS（一种感知图像块相似度度量标准）降低了 25 个百分点至 34%，同时将 DISTS（纹理相似度指标）降低了 21 个百分点至 43%。这意味着，由 SHARP 生成的 3D 视图在细节纹理和整体结构上都更接近真实世界，且具备绝对尺度，支持真实的相机移动模拟。

不过，SHARP 目前仍存在一定的物理限制。为了保证生成的真实性与速度，该模型主要侧重于重建拍摄视角附近的 3D 视图，而不会凭空“脑补”照片中完全被遮挡或未拍摄到的盲区。

因此，用户在浏览生成的 3D 场景时，视角移动范围需保持在原图拍摄位置的邻近区域。苹果目前已将 SHARP 的完整代码及相关资源发布在 GitHub 平台，全球开发者均可下载测试，这一举措预计将大幅加速移动端 3D 内容创作与空间计算应用的发展。

IT之家附上网友利用该模型，生成的 3D 场景如下：