
Written by 研究員29/08/2024
DiPIR:将任意物体对象插入到图片或视频中 并和图像融为一体
Ai資訊 Article

DiPIR:从单张图片中推断出真实的光照条件,从而能在图片或视频中插入虚拟物体,使这些物体看起来像是真的存在于场景中。
该项目旨在解决在图像或视频中插入虚拟物体时,如何让这些物体看起来像是真的在那个场景中存在的问题。传统方法在处理光照、阴影和反射时,通常无法做到完全真实。
这项研究提出了一种新的技术,叫做DiPIR,能够将任意虚拟物体插入到图片或视频中,并让这些物体与原始图像或视频融为一体,看起来像是真实存在于那个场景中一样。
这种方法尤其适合于室内和室外的图像或视频,可以自动调整物体的材质和光照,使其与场景自然融合。实验结果表明,这种方法在多个测试场景中表现出色,生成的图像非常逼真。
DiPIR 解决了以下关键问题:
- 光照估计的挑战: 在单一图像中估计场景光照是一个不适定的问题,尤其是在低动态范围的消费级设备拍摄的图像中。传统方法在处理这种复杂场景时往往效果不佳,导致插入的虚拟物体与真实场景不匹配。
- 光影效果的逼真性: 虚拟物体插入需要精确的光影效果,包括阴影、反射等,以确保虚拟物体看起来像是场景的一部分。现有的扩散模型虽然在图像生成方面表现强大,但在处理这种复杂的光影细节时仍有不足。
- 个性化处理: 通用的扩散模型往往不能很好地适应特定场景。DiPIR 通过对扩散模型进行轻量化的个性化调整,使其能够适应特定场景,从而提高插入效果的真实感
功能特点
1. 基于物理的逆向渲染
- 物理精确的光照模拟: DiPIR 使用基于物理的渲染器来模拟光线与场景中的3D物体之间的交互,准确再现阴影、反射和高光等光影效果。这种精确的光照模拟使得虚拟物体在插入场景后能够与真实环境无缝融合。
2. 扩散模型引导
- 大规模数据训练的视觉先验: DiPIR 利用预训练的扩散模型,这些模型通过大规模数据训练,具备对世界和物理现象的深刻理解。尽管扩散模型本身可能在光照细节方面有所不足,但通过与物理渲染的结合,它们可以提供有价值的指导信号,帮助优化场景的光照和色调映射。
3. 个性化调整
- 轻量化的模型个性化: DiPIR 提供了一种轻量化的个性化方法,通过对预训练的扩散模型进行少量调整,使其更适应特定的场景和插入物体。这种个性化处理增强了模型在特定任务中的表现,有助于实现更逼真的物体插入效果。
4. 差分渲染和可微优化
- 端到端的可微分渲染: DiPIR 的渲染过程是完全可微的,这意味着可以通过反向传播对光照和色调映射参数进行优化。这样的设计使得整个虚拟物体插入过程可以进行端到端的优化,从而提高最终结果的质量。
5. 支持多场景和多应用
- 适用于多种场景: DiPIR 可以在各种不同的场景中应用,包括室内、户外、白天、夜晚等不同光照条件的场景。无论是室内场景的细腻光照,还是户外场景的高动态范围光照,DiPIR 都能有效处理。
- 广泛的应用场景: 该方法不仅适用于虚拟物体插入,还可以用于合成数据生成、虚拟制作、增强现实等领域,具有广泛的应用前景。
6. 材料和色调映射优化
- 自动优化材料属性: 除了光照和色调映射,DiPIR 还能够自动调整虚拟物体的材料属性,例如金属感、粗糙度等,从而进一步增强物体与场景的融合效果。
- 色调映射匹配: DiPIR 可以自动调整场景的色调映射参数,确保插入物体的色调与背景场景一致,进一步提升真实感。
技术方法
- 虚拟场景构建:
- 3D 场景建模: DiPIR 基于输入图像创建一个虚拟的3D场景,包括虚拟物体和场景中的代理几何(如地面平面等),这些几何体用于捕捉阴影和反射等光照效果。用户可以手动指定物体的位置,也可以通过检测场景中的地面或使用深度数据来自动确定物体位置。
- 从输入的一张图片开始,首先建立一个包含虚拟物体和代理平面的虚拟3D场景。
- 这个虚拟场景是为了模拟真实场景中的光照、阴影和反射。
- 物理渲染:
- 使用基于物理的渲染器来模拟环境光照与插入虚拟物体之间的相互作用,以及这种作用对背景场景(如阴影)的影响。
- 这个步骤的目的是生成一个具有物理真实性的渲染效果,让虚拟物体能够真实地融入到图像中。
- 前景渲染: 使用基于物理的路径追踪算法渲染虚拟物体,生成与场景光照一致的前景图像。这包括处理光照与物体材质的交互,如反射、折射等。
- 阴影比率计算: DiPIR 计算虚拟物体在场景中投射的阴影,通过对比插入物体前后的场景亮度,计算出阴影区域的光照强度比率。这一比率用于调整背景图像的阴影效果,使其与虚拟物体的插入效果一致。
- 扩散模型引导:
- 个性化的扩散模型: 渲染后的图像会被传递给一个经过个性化调整的扩散模型。这个扩散模型负责进一步优化图像,使得虚拟物体与背景场景的融合更加自然。通过对预训练的扩散模型进行个性化调整,使其更适应特定的输入场景。扩散模型的强大图像生成能力用于指导光照和色调映射参数的优化。
- 在这个过程中,扩散模型会使用适配的 Score Distillation 公式的梯度来反馈优化信息,帮助调整环境光照图和色调映射曲线。
- 分数蒸馏损失(SDS): DiPIR 引入了一种基于扩散模型的分数蒸馏损失,称为 LDS(LoRA Distillation Sampling),它通过与场景相关的个性化扩散模型提供反馈信号,优化虚拟物体插入的真实感。这一损失函数通过计算个性化后的模型输出与非个性化模型输出之间的差异,来引导渲染过程中的优化。
- 光照和色调映射优化:
- 球形高斯光照模型: 场景光照由多个球形高斯(Spherical Gaussian, SG)函数表示,这些函数通过优化来模拟场景中的环境光照。光照的方向和强度通过这组优化参数进行表示和计算,确保虚拟物体能够与场景的光照条件相匹配。
- 双环境光照图初始化: 在优化初期,DiPIR 通过初始化两个独立的环境光照图(一个用于前景物体,一个用于投射阴影),以处理光照一致性问题。在训练过程中,这两个光照图逐渐融合为一个统一的环境光照图,从而获得更高的光照准确性。
- 环境光照融合的正则化: 通过使用正则化项,DiPIR 确保光照的亮度和色调一致性,同时抑制不必要的环境光照,以生成更锐利的阴影和更逼真的光照效果。
- 可微分色调映射曲线: 为了匹配输入图像的色调映射(通常由相机传感器决定),DiPIR 采用可优化的色调映射曲线,对插入的虚拟物体及其投射的阴影进行调整。这些曲线通过优化确保虚拟物体的颜色和亮度与背景场景一致。
- 在整个迭代优化过程中,通过对环境光照和色调映射曲线的调整,最终恢复出能够与背景场景完美融合的光照和色调参数。
- 这些参数确保了虚拟物体在图片或视频中呈现出最真实的效果。
- 动态场景处理:
- DiPIR 还可以处理动态场景中的虚拟物体插入。例如,可以让背景图像动画化,或者移动虚拟物体的位置,创建动态的场景效果。
- 多视角扩展:
- 该方法还支持将虚拟物体插入到从不同视角拍摄的场景中,确保物体在各个视角下都能保持一致的光照和融合效果。
实验结果
DiPIR 在多个数据集上进行了实验,展示了其在虚拟物体插入任务中的优越性能。以下是实验的主要结果:
1. 用户研究结果
- Waymo 数据集:DiPIR 在 Waymo 数据集上进行了用户研究,这个数据集包含了48个场景,涵盖不同的光照条件(白天、阴天、黄昏和夜晚)。在对比实验中,用户被要求在 DiPIR 和其他基线方法生成的图像中选择更真实的图像。
- 结果:在所有光照条件下,DiPIR 生成的图像被用户更频繁地选为更真实的图像,尤其是在日间和夜间场景中表现突出。在所有场景的综合评价中,DiPIR 的选择率超过了50%,优于所有比较的基线方法。
2. 定量评估
- PolyHaven 数据集:在 PolyHaven 数据集上,DiPIR 的表现也超越了其他基线方法。该数据集包括11个高动态范围(HDR)环境图和手动放置的虚拟物体,旨在评估虚拟物体插入的真实性。
- 指标:使用RMSE(均方根误差)、SSIM(结构相似性)、LPIPS(感知相似度)和si-RMSE(规范化均方根误差)等定量指标评估了各个方法的性能。DiPIR 在这些指标上均表现优异,特别是在 SSIM 和 LPIPS 指标上有显著提升,显示出更好的图像质量和一致性。
3. 基线方法对比
- 对比方法:实验中将 DiPIR 与多种基线方法进行了对比,包括传统的光照估计方法(如 Hold-Geoffroy et al. 方法)和基于生成模型的光照估计方法(如 StyleLight 和 DiffusionLight)。
- 结果分析:DiPIR 显著优于基线方法,特别是在复杂光照条件下(如黄昏和夜晚场景)。StyleLight 在户外场景中由于域间差异表现较差,而 DiffusionLight 尽管在高频细节方面表现良好,但在日间场景中无法很好地预测高强度光照。
4. 消融实验
- 消融分析:为了验证各个组件对 DiPIR 性能的贡献,进行了消融实验。研究表明,移除任何一个关键组件(如个性化处理、环境光照融合、色调映射优化)都会导致性能下降。特别是,使用原始SDS损失而非改进的LDS损失时,训练过程不稳定且结果质量较差。
5. 应用展示
- 材料和色调映射优化:DiPIR 不仅可以进行虚拟物体的插入,还可以优化场景中的其他属性,如虚拟物体的材料和局部光照。实验表明,通过优化材质属性,DiPIR 可以使插入的物体在视觉上更符合场景的光照条件,并且能够调整色调映射,使得物体与场景的颜色和亮度更加匹配。
一些案例:
- 在多个视图中插入虚拟对象
- 优化插入对象的可变材料属性
閲讀原文
Author: 小互
You may also like
Written by 研究員
研究一下自己。