《蚂蚁呀嘿》火了,背后的AI技术不止换脸这么简单

如题所述

第1个回答  2022-07-09
作者|小葳

2月底,各种版本的《蚂蚁呀嘿》在抖音刷屏。有网友说,“一打开抖音,好像捅了蚂蚁窝。”

通过一款名为Avatarify 的APP,用户只需上传一张照片,即可让照片主人做出各种想要的表情。截止发稿,《蚂蚁呀嘿》在抖音有超过25万个视频,相关话题视频播放量达到30亿次。Avatarify曾在2 月 25 日问鼎国内App Store 应用免费榜榜首,随后连续数天稳居总榜第一名。

相比ZAO火爆之后的3天后下架,Avatarify也逃不出换脸软件的宿命,只有7天便在APP Store中国市场下架(目前国外还可以使用)。

Avatarify 由一个俄罗斯程序员开发,并放在GitHub上,最初是给Zoom、Skype等视频会议“解闷”用的,比如可以在开视频会议时把自己的脸换成马斯克的脸,并实时互动。迄今为止这个项目已在 GitHub 上获得了近 1.2 万的 star 量。

几个月后,Avatarify又推出了APP版(只有iOS版)。原理上,Avatarify借助 deepfake 等技术,在想要交换的脸部图像上对算法进行训练。通过在目标图像的相似类别上训练算法,该模型支持实时换脸操作。

类似换脸软件屡次被下架的背后还是隐私和信息安全问题。很多人都会担心自己的人脸信息被泄露或滥用,然而我们却不必对其背后的AI技术——深度合成一棒子打死。而且,目前深度合成在很多行业已经有了不少更有价值的应用。

深度合成首次被公众关注是2017年11月,彼时美国新闻网站Reddit一个名为“deepfakes”的用户上传了一段合成后的色情视频,将色情影片中演员的脸换成某明星的脸。此后,媒体开始用deepfake描述这种基于AI的视频合成内容。不过因此也让不少人误认为,深度合成就是deepfake、换脸,实在是太冤了。

首先,deepfake是深度合成的子集。只不过,换脸是最早进入公众视野,也是最为大众熟知的一种深度合成应用。

深度合成(Deep Synthesis)的内涵非常广泛,包括借助人工智能算法实现语音、图像、音频、视频、人脸等内容的合成与自动生成。其典型应用包括:人脸替换(换脸)、人脸再现(操纵目标对象的面部表情,比如让他们说从未说过的话)、人脸合成(AI生产媲美真实的人脸图像,事实上这张人脸并不存在)、语音合成、全身合成等等。

其次,deepfake频频导致的隐私安全和色情场景滥用问题,会让人们对深度合成技术存在偏见和误解,甚至认为AI伪造内容会冲击 社会 信任等等。不过,随着深度合成技术在更多领域的落地应用,公众对深度合成技术的认识也愈加成熟。

深度合成背后的AI技术主要包括两块:自编码器(autoencoders)和生成对抗网络(GAN, Generative Adversarial Networks )。GAN由两组相互对抗的人工神经网络组成,一个是生成器,一个是鉴别器,在无数次对抗中,生成器最终做到让鉴别器不再能够区分真实数据和合成数据,从而生成高度逼真的内容。

业界最先进的图像生成器当属英伟达的StyleGAN,已于2019年2月在Github上开源。

腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》(以下简称报告)显示,近几年深度合成技术演进加快,并展现出几个技术趋势:

一、在单一的音频、图像合成之外,深度合成技术正向综合性的方向发展。

二、面部而成之后,全身合成将成为新热点。

三、2D合成之外,3D合成技术(尤其是虚拟数字人)将是下一阶段的重点。

而且,随着“深度合成”技术日趋成熟,其已经在多个领域实现落地应用,包括影视、 娱乐 、教育、医疗、电商、广告营销等领域。

在媒体行业,AI主播日益火热。2018年,搜狗联合新华社推出全球首个AI合成主播后,2020年,双方又推出全球首个3D AI合成主播。3D AI合成主播基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术,使机器可以基于输入文本生成逼真度极高的3D数字人视频内容,呈现和真人一样的视频播报。

此外,包括百度、京东、网易在内的互联网巨头先后推出虚拟数字人。百度智能云推出的虚拟数字人,成为国内首个上岗的银行“虚拟员工”。

在自动驾驶领域,深度合成被用于开发自动驾驶仿真系统(AADS),创造虚拟道路环境为自动驾驶系统提供训练和测试。

在医疗领域,通过生成与真实医学影像无异的医学图像训练AI系统,可以解决医疗数据不足、病患隐私保护等问题。在NVIDIA与合作伙伴联合发表的论文中,展示了利用GAN算法合成带有肿瘤的脑部核磁共振图像的方法。在算法训练生成过程中,仅需投入10%的真实数据,AI诊断系统就可以检测出真实影像中的肿瘤。

在广告营销领域,AI合成的人脸和虚拟形象可以替代真人模特参与营销活动,而不会有人像版权问题。比如,Generated Photos 就是一个用AI自动生成人脸的网站,它的资料库中有超过 10 万张AI生成的人脸,对外提供免费下载使用,而且没有版权问题。这些免费人脸图片可以用在非常多的场景,比如广告传单、网站、PPT 简报、问卷、用户头像等等。

深度合成被滥用是人工智能治理的一个重要课题。

色情行业是新技术采用和普及的先锋,AI技术也不例外。目前,色情产业是深度合成技术滥用的重灾区。根据报告,2019年12月,全网共有14678个深度合成视频,其中96%属于色情性的深度合成视频,主要存在于色情网站。

如何防止人们用深度合成技术作恶?多元治理是比较公认的思路,包括法律方案、技术方案、行业自律和公众教育等各个方面。

法律方面,一些发达国家已经出台相关法案。但值得注意的是,并没有“一刀切”禁止使用深度合成技术,而是禁止利用深度合成技术从事色情视频合成、虚假新闻、干扰选举等非法行为。比如美国国会《DeepFakes责任法案》等相关法案,只禁止政治干扰、色情报复、冒充身份等目的的深度合成,并要求制作者对深度合成内容添加水印等标记。

技术方面,鉴别技术和溯源技术是两种主流的方法。但是在鉴别方面,没有通用的视频鉴别方案,需要针对每一种新兴的合成技术训练针对性的鉴别网络。

虽然目前深度合成内容的门槛已大幅降低,普通人也可以在智能手机等智能终端能上完成 娱乐 性的深度合成内容,但这类内容往往较容易识别。高质量、高仿真的深度合成内容仍需要专业工具和技能。所以,我们需要防范风险但无需恐慌。

AI就像人类的一个非常聪明的学生,TA只是飞快又忠实地学会人类教的东西。

正如报告中所说,“深度合成并非是关于‘伪造’和‘欺骗’的技术,而是极富创造力和突破性的技术。虽然它和其他技术一样,也催生了一系列必须面对的难题,但这并不会磨灭这一技术给 社会 带来的进步。”
相似回答