Google AI算法使用在人像自拍模式进行精准的抠图Alpha 遮罩_百度知 ...

发布网友发布时间：2024-08-20 09:26

共1个回答

热心网友时间：2024-08-30 11:39

图像抠图是提取精确的alpha抠图的过程，该抠图将图像中的前景和背景对象分开。这项技术传统上用于电影制作和摄影行业，用于图像和视频编辑，例如背景替换、合成散景和其他视觉效果。图像抠图假设图像是前景和背景图像的合成，因此每个像素的强度是前景和背景的线性组合。然而，这种类型的分割无法处理包含精细细节的自然场景，例如头发和毛发，这需要为前景对象的每个像素估计透明度值。

与分割蒙版不同，Alpha遮罩通常非常精确，可以保留发束级别的头发细节和准确的前景边界。尽管最近的深度学习技术在图像抠图方面显示出了潜力，但仍然存在许多挑战，例如生成准确的地面真实alpha遮罩、改进对野外图像的泛化以及在处理高分辨率图像的移动设备上执行推理。

在Pixel 6中，Google通过引入一种新方法来从自拍图像中估计高分辨率和准确的alpha遮罩，从而显着改善了在人像模式下拍摄的自拍照的外观。在合成景深效果时，使用alpha遮罩可以让Google提取更准确的拍摄对象轮廓，并具有更好的前景与背景分离。这允许拥有各种发型的用户使用自拍相机拍摄漂亮的人像模式照片。

使用新的高质量Alpha遮罩相比，使用低分辨率和粗糙Alpha遮罩的自拍照片的人像模式效果。Google训练了一个由一系列编码器-解码器块组成的全卷积神经网络，以逐步估计高质量的alpha遮罩。Google将输入RGB图像与作为输入传递给网络的粗糙alpha遮罩（使用低分辨率人物分割器生成）连接在一起。新的Portrait Matting模型使用MobileNetV3主干和浅层（即，层数较少）解码器首先预测在低分辨率图像上运行的精细低分辨率alpha遮罩。然后Google使用浅编码器-解码器和一系列残差块来处理高分辨率图像和上一步中精炼的alpha遮罩。

该网络从彩色图像和初始粗糙alpha遮罩中预测出高质量的alpha遮罩。Google使用MobileNetV3骨干网和浅层解码器首先预测精细的低分辨率alpha matte。然后Google使用浅编码器-解码器和一系列残差块来进一步细化最初估计的alpha matte。最新的图像抠图深度学习工作依赖于手动注释的每像素alpha遮罩，用于将前景与背景分开，这些遮罩是使用图像编辑工具或绿屏生成的。这个过程很乏味，并且不适合生成大型数据集。此外，它通常会产生不准确的alpha遮罩和被污染的前景图像（例如，来自背景的反射光或“绿色溢出”）。此外，这并不能确保主体上的照明与新背景环境中的照明保持一致。

为了应对这些挑战，Portrait Matting使用自定义体积捕获系统Light Stage生成的高质量数据集进行训练。与以前的数据集相比，这更真实，因为重新照明允许前景主体的照明与背景相匹配。此外，Google使用来自野外图像的伪地面真实alpha遮罩来监督模型的训练，以提高模型的泛化能力，如下所述。这个地面实况数据生成过程是这项工作的关键组成部分之一。

该方法的工作原理是记录对象在照明背景下的剪影作为照明条件之一。此外，Google捕获了一个干净的背景照明板。剪影图像，除以干净的车牌图像，提供了一个真实的alpha遮罩。然后，Google使用基于深度学习的抠图网络将记录的alpha抠图外推到Light Stage中的所有相机视点，该抠图网络利用捕获的干净板作为输入。这种方法允许Google将alpha遮罩计算扩展到不受约束的背景，而无需专门的时间复用照明或干净的背景。这种深度学习架构仅使用使用比率抠图方法生成的地面实况抠图进行训练。

从Light Stage的所有相机视点计算的alpha遮罩利用每个主体的反射场和Google的地面真实遮罩生成系统生成的alpha遮罩，Google可以使用给定的HDR照明环境重新照亮每张肖像。Google按照alpha混合方程将这些重新照射的对象合成到与目标照明相对应的背景中。然后通过将虚拟相机定位在中心并进行光线追踪，从HDR全景图生成的背景图像从相机的投影中心进入全景。Google确保投影到全景图中的视图与其重新照明的方向相匹配。Google使用不同焦距的虚拟相机来模拟消费级相机的不同视野。该管道通过在一个系统中处理抠图、重新照明和合成来生成逼真的合成，然后Google用它来训练肖像抠图模型。

使用地面实况生成的alpha遮罩在不同背景（高分辨率HDR地图）上合成图像使用野外肖像进行训练监督为了缩小使用Light Stage生成的肖像和野外肖像之间的差距，Google创建了一个管道来自动注释野外照片，生成伪地面真实alpha遮罩。为此，Google利用Total Relighting中提出的Deep Matting模型创建了一个模型集合，该模型可以从野外图像中计算多个高分辨率alpha遮罩。Google在使用Pixel手机在内部拍摄的大量肖像照片数据集上运行此管道。此外，在此过程中，Google通过对不同比例和旋转的输入图像进行推断来执行测试时间增强，最后在所有估计的alpha遮罩中聚合每个像素的alpha值。生成的alpha遮罩根据输入RGB图像进行视觉评估。感知上正确的alpha遮罩，即遵循对象的轮廓和精细细节（例如，头发），被添加到训练集中。在训练期间，两个数据集都使用不同的权重进行采样。使用提出的监督策略将模型暴露在更多种类的场景和人体姿势中，提高了它对野外照片的预测（模型泛化）。

使用深度抠图模型和测试时间增强的集合估计的伪地面真实alpha遮罩肖像模式自拍肖像模式效果对主体边界周围的错误特别敏感（见下图）。例如，由于使用粗糙的alpha遮罩而导致的错误会使焦点始终集中在对象边界或头发区域附近的背景区域上。使用高质量的alpha遮罩使Google能够更准确地提取拍摄对象的轮廓并改善前景与背景的分离。

Google通过提高Alpha遮罩质量，减少最终渲染图像中的错误，并改善头发区域和主体边界周围模糊背景的外观，使Pixel 6上的前置摄像头人像模式变得更好。此外，Google的ML模型使用涵盖各种肤色和发型的各种训练数据集。您可以通过使用新的Pixel 6手机自拍来试用这个改进版的人像模式。

与使用新的高质量Alpha遮罩相比，使用粗糙Alpha遮罩的自拍照片的人像模式效果。