《蚂蚁呀嘿》火了,背后的AI技术不止换脸这么简单

发布网友发布时间：2022-08-15 03:39

共1个回答

热心网友时间：2023-02-06 17:51

作者|小葳

2月底，各种版本的《蚂蚁呀嘿》在抖音刷屏。有网友说，“一打开抖音，好像捅了蚂蚁窝。”

通过一款名为Avatarify 的APP，用户只需上传一张照片，即可让照片主人做出各种想要的表情。截止发稿，《蚂蚁呀嘿》在抖音有超过25万个视频，相关话题视频播放量达到30亿次。Avatarify曾在2 月 25 日问鼎国内App Store 应用免费榜榜首，随后连续数天稳居总榜第一名。

相比ZAO火爆之后的3天后下架，Avatarify也逃不出换脸软件的宿命，只有7天便在APP Store中国市场下架（目前国外还可以使用）。

Avatarify 由一个俄罗斯程序员开发，并放在GitHub上，最初是给Zoom、Skype等视频会议“解闷”用的，比如可以在开视频会议时把自己的脸换成马斯克的脸，并实时互动。迄今为止这个项目已在 GitHub 上获得了近 1.2 万的 star 量。

几个月后，Avatarify又推出了APP版（只有iOS版）。原理上，Avatarify借助 deepfake 等技术，在想要交换的脸部图像上对算法进行训练。通过在目标图像的相似类别上训练算法，该模型支持实时换脸操作。

类似换脸软件屡次被下架的背后还是隐私和信息安全问题。很多人都会担心自己的人脸信息被泄露或滥用，然而我们却不必对其背后的AI技术——深度合成一棒子打死。而且，目前深度合成在很多行业已经有了不少更有价值的应用。

深度合成首次被公众关注是2017年11月，彼时美国新闻网站Reddit一个名为“deepfakes”的用户上传了一段合成后的*视频，将*影片中演员的脸换成某明星的脸。此后，媒体开始用deepfake描述这种基于AI的视频合成内容。不过因此也让不少人误认为，深度合成就是deepfake、换脸，实在是太冤了。

首先，deepfake是深度合成的子集。只不过，换脸是最早进入公众视野，也是最为大众熟知的一种深度合成应用。

深度合成（Deep Synthesis）的内涵非常广泛，包括借助人工智能算法实现语音、图像、音频、视频、人脸等内容的合成与自动生成。其典型应用包括：人脸替换（换脸）、人脸再现（操纵目标对象的面部表情，比如让他们说从未说过的话）、人脸合成（AI生产媲美真实的人脸图像，事实上这张人脸并不存在）、语音合成、全身合成等等。

其次，deepfake频频导致的隐私安全和*场景滥用问题，会让人们对深度合成技术存在偏见和误解，甚至认为AI伪造内容会冲击社会信任等等。不过，随着深度合成技术在更多领域的落地应用，公众对深度合成技术的认识也愈加成熟。

深度合成背后的AI技术主要包括两块：自编码器（autoencoders）和生成对抗网络（GAN, Generative Adversarial Networks ）。GAN由两组相互对抗的人工神经网络组成，一个是生成器，一个是鉴别器，在无数次对抗中，生成器最终做到让鉴别器不再能够区分真实数据和合成数据，从而生成高度*真的内容。

业界最先进的图像生成器当属英伟达的StyleGAN，已于2019年2月在Github上开源。

腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》（以下简称报告）显示，近几年深度合成技术演进加快，并展现出几个技术趋势：

一、在单一的音频、图像合成之外，深度合成技术正向综合性的方向发展。

二、面部而成之后，全身合成将成为新热点。

三、2D合成之外，3D合成技术（尤其是虚拟数字人）将是下一阶段的重点。

而且，随着“深度合成”技术日趋成熟，其已经在多个领域实现落地应用，包括影视、娱乐、教育、医疗、电商、广告营销等领域。

在媒体行业，AI主播日益火热。2018年，搜狗联合新华社推出全球首个AI合成主播后，2020年，双方又推出全球首个3D AI合成主播。3D AI合成主播基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术，使机器可以基于输入文本生成*真度极高的3D数字人视频内容，呈现和真人一样的视频播报。

此外，包括百度、京东、网易在内的互联网巨头先后推出虚拟数字人。百度智能云推出的虚拟数字人，成为国内首个上岗的银行“虚拟员工”。

在自动驾驶领域，深度合成被用于开发自动驾驶仿真系统（AADS），创造虚拟道路环境为自动驾驶系统提供训练和测试。

在医疗领域，通过生成与真实医学影像无异的医学图像训练AI系统，可以解决医疗数据不足、病患隐私保护等问题。在NVIDIA与合作伙伴联合发表的论文中，展示了利用GAN算法合成带有肿瘤的脑部核磁共振图像的方法。在算法训练生成过程中，仅需投入10%的真实数据，AI诊断系统就可以检测出真实影像中的肿瘤。

在广告营销领域，AI合成的人脸和虚拟形象可以替代真人模特参与营销活动，而不会有人像版权问题。比如，Generated Photos 就是一个用AI自动生*脸的网站，它的资料库中有超过 10 万张AI生成的人脸，对外提供免费下载使用，而且没有版权问题。这些免费人脸图片可以用在非常多的场景，比如广告传单、网站、PPT 简报、问卷、用户头像等等。

深度合成被滥用是人工智能治理的一个重要课题。

*行业是新技术采用和普及的先锋，AI技术也不例外。目前，*产业是深度合成技术滥用的重灾区。根据报告，2019年12月，全网共有14678个深度合成视频，其中96%属于*性的深度合成视频，主要存在于*网站。

如何防止人们用深度合成技术作恶？多元治理是比较公认的思路，包括法律方案、技术方案、行业自律和公众教育等各个方面。

法律方面，一些发达国家已经出台相关法案。但值得注意的是，并没有“一刀切”禁止使用深度合成技术，而是禁止利用深度合成技术从事*视频合成、虚假新闻、干扰选举等非法行为。比如美国国会《DeepFakes责任法案》等相关法案，只禁止*干扰、*报复、冒充身份等目的的深度合成，并要求制作者对深度合成内容添加水印等标记。

技术方面，鉴别技术和溯源技术是两种主流的方法。但是在鉴别方面，没有通用的视频鉴别方案，需要针对每一种新兴的合成技术训练针对性的鉴别网络。

虽然目前深度合成内容的门槛已大幅降低，普通人也可以在智能手机等智能终端能上完成娱乐性的深度合成内容，但这类内容往往较容易识别。高质量、高仿真的深度合成内容仍需要专业工具和技能。所以，我们需要防范风险但无需恐慌。

AI就像人类的一个非常聪明的学生，TA只是飞快又忠实地学会人类教的东西。

正如报告中所说，“深度合成并非是关于‘伪造’和‘欺骗’的技术，而是极富创造力和突破性的技术。虽然它和其他技术一样，也催生了一系列必须面对的难题，但这并不会磨灭这一技术给社会带来的进步。”