Deepfake是一种换脸技术,可以将图片或视频中A的脸换到B的头上。其名字由深度机器学习(deep machine learning)和假照片(fake photo)组合而成。这项技术不需要操作者具备深厚的专业知识,只要收集到足够素材,AI就可以完成。Deepfake换脸效果逼真,让人难以分辨真假,这也引发了众多伦理和隐私问题。
史泰龙和施瓦辛格两位好莱坞顶级流量功夫巨星最近一次合体出现在大银幕上,还是在2013年上映的《金蝉脱壳》中,这让不少影迷意犹未尽。11月22日,一篇报道称,国外视频网站上一部名为《Step Brother》的电影短片,借助Deepfake技术,把两位巨星的面部替换到了两名小众演员脸上,而且人脸表情自然,毫无痕迹,这让不少网友惊叹:太恐怖。此外,在最近的国内热播剧《了不起的儿科医生》中也使用了这种AI换脸技术。
根据安全分析公司Sensity最新调查结果,自2018年12月以来,Deepfake在线造假视频的数量大约每6个月翻一番,而截至2020年6月,造假视频已经多达49081个,比2019年7月增长了330%。
Deepfake技术让视频换脸变得越来越简单,如何打假“李鬼”,让其避免成为假视频的“帮凶”已成为当务之急。
用视频“大变活人”分几步
Deepfake这种技术堪称现代网络“易容术”,是比PS强大很多的动态换脸技术。“目前Deepfake技术已经很成熟了,主要技术分为两个部分,自动编码器和生成对抗网络。”天津大学智能与计算学部教授翁仲铭介绍。
自动编码器是一种神经网络技术,就是把一个人的照片特征抓取出来,然后用数字代表。但是抓取一个人的面部特征时,不可能抓取所有状态下的特征,比如说话、哭和笑等,那么就必须将没有的表情用数字模拟的方式展现出来。通过训练,就可以找出一个最好的用数学方式来呈现照片特征的编码器。
有编码器就需要解码器,解码器会把一串串数字再还原成照片。不同解码器可以在演员身上还原不同照片,比如史泰龙解码器可以还原史泰龙照片,而还原施瓦辛格照片则需要施瓦辛格的解码器。具体操作是先使用编码器分别抽取小众演员和史泰龙的特征,而后再使用史泰龙的解码器还原,从而得到史泰龙的脸和小众演员的表情。
“Deepfake就是在设计、训练精准的编码器和解码器。”翁仲铭介绍,因为编码器是抓取照片的特征,所以基本上只需要一套就可以了。可是解码器就需要训练很久,因为把一连串的数字特征,拼接到小众演员身上,而且要变得很像,就需要长时间训练。以换成史泰龙的脸为例,这个过程需要输入史泰龙600—3000张照片并经过48—72小时来训练深度模型。
“自动编码器做出的照片是否自然真实还需要去判别把关,这就需要生成对抗网络技术。”翁仲铭解释,这包括两个机器学习模型,分别为生成网络和辨别网络。生成网络扮演“造假者”,在模型训练后产生伪造影片;而辨别网络则扮演“检测者”,不断地检视假影片,直至它再辨别不了结果是假的。数据越多,效果越理想,假影片越真实。
换脸门槛越来越低
其实这种动态换脸技术最早是被用于影视后期制作,但是以前影视作品中的人脸交换操作起来非常复杂,只有专业视频剪辑师和公共网关接口专家才能完成,并且需要花费大量时间和精力。
但随着Deepfake这样公开且轻量化技术的出现,这个技术的使用门槛也越来越低了。特别是设计架构Deepfake技术的“大神”将代码上传到了一个自由共享代码的网站Github,让这项技术更容易获得。
利用Deepfake技术,即使是一个对视频剪辑一窍不通的外行,也只需一个强大的GPU(图形处理器)和上百张人物样图,输入至少一个算法,就能完成人脸交换,并且可以制作出非常逼真的视频效果。“普通人在经过一段时间的学习以后,完全能够掌握这项技术。”翁仲铭感叹。
“虽然现在这项技术操作起来简便,但是原来要用软件实现这个过程是非常艰难的。”翁仲铭解释,视频中人是动态的,比如一个60帧(fps)的视频中,每秒钟画面更新60次,如果是PS的话需要处理60张静态图片,然后将其前后连接起来形成一个动态图。一个短视频动辄数分钟,甚至十多分钟,如果按照一分钟处理3600张计算,一个几分钟的短片也要处理多达上万张照片,所以需要强大算力的GPU来支撑。
翁仲铭认为,近些年随着GPU的发展,其算力越来越强大,也使得Deepfake技术处理照片越来越轻松,使用越来越方便。这可能也是2018年12月以来,造假视频成倍增长的原因之一。
以技制技打假“李鬼”还不够
如此强大的“黑科技”采用了最先进的人工智能技术,通过比较简单的运算,就有可能生成以假乱真的视频。但是Deepfake技术在运行几天之后,就遭到了唾弃,被全球封禁,还被世人称为“最邪恶”的技术。
因为太过以假乱真,其破坏力不可估量。事实证明,人们的担心并非杞人忧天。Deepfake第一次亮相就是将《神奇女侠》盖尔·加朵的脸,嫁接到了一部成人电影女主角身上。此外由Deepfake制作的假视频已引发多起刑事案件,甚至卷入政治纷争。
不过再完美的技术也不是无懈可击的,专家们提出了几种辨识Deepfake换脸视频的方法:比如眨眼率,通过Deepfake制作的对象的眨眼率少于正常人;语音和嘴唇运动的同步状况;情绪不符合;模糊的痕迹、画面停顿或变色。不过翁仲铭表示,这些方法,Deepfake通过加强对样本的学习,都可以解决,迟早会有人可以通过Deepfake技术制造出人类用肉眼无法识别的“假脸”。
“也有不少人想到以AI对抗AI。”翁仲铭介绍,美国国防部研发了全球首款“反AI变脸刑侦检测工具”,专门用于检测AI变脸或换脸造假技术。不过,人工智能基金会的研究副主席戴利普承认,现时Deepfake检测算法的准确率,即使可高达97%,但鉴于互联网规模非常大,余下的3%仍然极具破坏力。
目前还有一个识别Deepfake换脸的新思路,叫作“活体取证”,该技术主要是根据分辨率、三维信息、眼动等来区分真假,因为翻拍的照片分辨率和直接从真人上采集的照片在质量、分辨率上比都有差别。
“整个算法遵循的观察规律是:生物信号还没有保存在假视频中,这些信号在生成噪声时也产生了不同的标识。”翁仲铭解释,换句话说,假视频中显示的“人”不会表现出与真实视频中的人相似的心跳模式,通过这种方法可以找到每个生成模型的唯一签名(标识)。值得一提的是,无论遮挡、照明条件如何变化,这些标识在真实视频中是不存在的。利用这些标识可以找到假视频背后的生成模型,然后反过来提高整体的假视频检测精度。
“道高一尺魔高一丈,利用Deepfake技术的人也在不断改进换脸的水平,因此从长远来看,我们必须寻求更有力的方法来维护和证明社交媒体信息的真实性。目前几乎没有任何工具可以帮助读者确信其在网上看到的信息来源可靠,且没有被篡改。”翁仲铭强调,改善这种情况需要从视频发布源头进行管理,比如实名制,同时加强立法,增加网络警察巡逻等,严厉打击这种造假行为。(记者陈曦)