DeepFakeDetetion、数字图像处理操作取证研究⽅向综述
DeepFake Detetion综述
综述⼀:DeepFake⽣成与防御研究⼊门
转⾃公众号【隐者联盟】
DeepFake(深度伪造)是英⽂“Deep Learning”和“Fake”的混成词,专指基于⼈⼯智能的⼈体图像合成技术,这是维基百科对Deepfake的基本定义。⼴义⽽⾔,深度伪造包括基于深度学习的图像、⽂本、⾳视频等各种媒体的⽣成和编辑技术。从2017年Reddit社区“DeepFake”作品引起轰动,到近期“蚂蚁呀嘿”的盛⾏,DeepFake已经在全⽹掀起了⼀次次应⽤热潮。深度学习的发展使⼈脸伪造技术趋于⼤众化,由DeepFake技术滥⽤导致的问题也严重威胁着社会信誉、司法公正乃⾄国家安全,因此相应的防御技术也得到了快速发展。
伪造技术概述
1. 基于图像域特征编码的⽅法
依靠英文现阶段,全智能化的⼈脸深度伪造技术发展并不完备,其中主流的伪造技术主要从⼈脸图像域的⾓度出
发,通过对⼈脸图像进⾏特征编码、重构的操作⽅式实现篡改,篡改类型可以概括为⾯部替换和属性编辑两⼤类。
其中⾯部替换旨在⽤原始⼈脸⾯部替换⽬标⼈脸的⾯部区域,涉及⽬标图像⾝份属性的变化。
⽽属性编辑主要针对⽬标⼈脸⾝份信息外的各类属性进⾏编辑篡改,如使⽤表情迁移、唇形篡改等。
⾯部替换的经典算法是“Deepfakes”[1],主体结构基于⾃动编码器实现。对于原始⼈脸A和⽬标⼈脸B,训练权值共享的编码器⽤于编码⼈脸特征,解码端A和B各⾃训练独⽴解码器⽤于重构⼈脸。在测试阶段,⽤训好的编码器对⽬标B进⾏编码,再⽤训好的A解码器来解码B的特征,以实现A与B之间的⼈脸替换。为了达到更好的替换效果和更佳的可操控性,对抗损失和⼈脸解耦重构等技术也被⽤于深伪算法进⾏约束与监督,并产⽣了很多变体⽅法,如FSGAN[2]、FaceShifter[3]等,使得⽣成的伪造⼈脸质量⼤幅提⾼。
属性编辑算法的基本原理与⾯部替换类似,但该类算法以⼈脸属性为对象进⾏篡改,不涉及到⽬标⼈物⾝份信息的改变,通常⽤来进⾏⼈脸的表情迁移、唇形篡改等应⽤。代表算法包括早期的表情迁移⽅法Face2Face[4]、特定⼈唇形篡改⽅法ObamaNet[5]和近期应⽤⽕热的表情迁移⽅法First Order Motion[6]以及唇形篡改⽅法Wave2Lip[7]等。下表列举了部分⾼影响⼒的⼈脸深度伪造⼯具与商业软件以及它们的特点。
⼯县/软件名称类型特点
FaceSwap-GAN⾯部替换开源⼯具有技术要求需⼤量⼈脸素材
DeepFakes⾯部替换开源⼯具有技术要求需⼤量⼈脸素材
FakeAPP⾯部替换商业软件⽆技术门槛,需⼤量⼈脸
DeepFaceLab⾯部替换开源⼯具多平台开源项⽬技术与硬件门槛⾼,需⼤量⼈脸
ObamaNet属性编辑开源⼯具有技术要求需⼤量指定⼈脸素材
First Order Motion属性编辑开源⼯具有技术要求需⼤量⼈脸素材
Wave2Lip属性编辑开源⼯具有技术要求需⼤量⼈脸素材
ZAO⾯部替换商业软件⽆技术门槛仅需1张⼈脸,但可换场景固定
Avatarify属性编辑商业软件⽆技术门槛仅需1张⼈脸,实现表情迁移,场景固定
去演APP⾯部替换商业软件⽆技术门槛仅需1张⼈脸,替换指定场景中的⼈物
wandered2. 基于隐变量编辑的⽅法
在⼈脸伪造相关技术中,有⼀类⽅法基于对抗⽣成⽹络(GAN)来实现。与基于图像域特征编码的⽅法不同,基于GAN实现的⽅法依赖于已训练好的GAN⽹络,探索⼈脸图像各属性在隐空间中对应的隐变量,找到待篡改的语义⽅向,再利⽤预训练好的GAN⽣成器来⽣成编辑后的⼈脸。这类⽅法需要在图像隐空间进⾏操作,对于已知分布的⽣成⼈脸图像可以实现⾼⾃由度的编辑和⾼真实感的伪造,但对于真实⼈脸图像,⾸先需要将其映射到隐空间,此时⾮常依赖GAN翻转(GAN Inversion)技术的效果。这类⽅法可探索性强,且思路多样化,近期在学术界得到了快速发展,代表算法有InterFaceGAN [10]、idinvert [11]。
防御技术概述
被动式检测⽅法
现阶段的Deepfake防御主要指针对深伪媒体的被动式检测,即在⽆辅助信息的条件下对伪造⼈脸视频进⾏检测与鉴别,这个任务本质上是⼀个⼆分类任务,判断给定的⼈脸媒体⽂件是真还是假。⼆分类任务在多媒体取证、计算机视觉等领域都已有深⼊研究,但深度伪造的检测具有其特殊性,既不同于⼀般取证场景下像素级的修改检测,也不同于计算机视觉中语义级的理解分类,⽽是与⼆者都有关联但⼜有实质差别的⼀种技术。现阶段的Deepfake的被动式检测⽅法也⼤多从这两个领域中借鉴思路,
根据检测⽅法的特点,可以概括为三类。
1. 有伪造样本学习⽅法
这类⽅法的核⼼特点是利⽤真假成对数据作为训练驱动,模型学习的过程需要有伪造⼈脸样本的参与。通过⼈⼯设计或神经⽹络挖掘的形式提取到真假⼈脸的可区分特征,从⽽进⾏分类。
根据提取特征⽅式的不同,这类⽅法可分为基于⼈⼯特征的⽅法和基于深度学习⽅法两种。
基于⼈⼯特征的检测⽅法多见于早期阶段,针对伪造技术不完善导致的篡改痕迹进⾏特征提取,如利⽤传统图像取证中的隐写分析特征[12],或捕捉眨眼异常、头⾯姿势不⼀致、异瞳和⽛齿细节异常[13]等。
基于深度学习的⽅法则更多建⽴在深度神经⽹络强⼤的图像理解能⼒之上,从媒体的空域、时域、频域等⾓度挖掘可鉴别的细节特征。⼀些经典的⽹络结构如XceptionNet、EfficientNet等在deepfake检测任务中发挥了良好的效果。在此基础上,Two-branch[14]采⽤了双向LSTM来寻找伪造视频的时序伪像,F3-Net[15]通过精⼼设计的局部频域统计模块从频域的⾓度放⼤了伪造带来的可检测痕迹,MPSM[16]为特征图设计了块相似度计算模块以捕捉空域和频域特征上的篡改痕迹,均取得了良好的效果。Multi-Attention[17]⾸次将deepfake检测定义为细粒度分类任务,采⽤了多个注意⼒图来响应⼈
脸图像的不同区域和不同注意⼒点,以定位局部且细微的篡改伪像。SPSL[18]则通过分析伪造算法中普遍存在的上采样过程,从相位谱中捕捉频域伪造痕迹,实现了更为通⽤的检测。
2. ⽆伪造样本学习⽅法
与“有伪造样本学习”的⽅法相对应,“⽆伪造样本学习”⽅法的模型训练过程不需要使⽤伪造⼈脸的负样本,⽽是抓住了⼈脸这⼀特殊信息载体的某些特性,或抓住了深度伪造过程中某⼀固有的流程漏洞实现检测与鉴别。典型的⽅法是Face X-ray[19],其抓住了伪造⽅法⼤多需要进⾏融合操作这⼀固有流程,进⾏针对融合操作痕迹的检测,模型训练只需要使⽤真脸数据和部分⼈⼯制作的⾮⼈脸融合图像,不需成对的真假脸。类似的还有PCL[20],通过预测融合mask的⽅式,判断给定⼈脸是否有融合痕迹或边界的不⼀致性。这类⽅法由于不依赖于真假成对数据,因此对不同的伪造算法具有较强的迁移检测能⼒。
3. 基于多任务迁移的⽅法
这是最近新兴起的⼀类⽅法,其核⼼分类器依旧是依赖于成对真假数据进⾏训练,与前述⽅法最⼤的不同在于,该类⽅法会利⽤其它任务中的预训练模型或预筛选特征,在deepfake的真假数据对上进⾏微调。代表⽅法为Lip-forensics[21],利⽤了唇读模型这⼀与⼈脸相关的分类模型,迁移到deepfake检测的任务中来,特征提取过程与唇读任务⼀致,但最终的⽬标是利⽤精准的唇读,区分真假唇的差别,
从⽽实现真伪鉴别。
主动式防御
主流的伪造防御技术⼤多通过事后取证的⽅式进⾏,属于被动式检测⽅法,但此时往往伪造多媒体的危害已经形成。因此,近期⼀些主动式防御的⼯作被提出。如Huang等⼈[28]提出的基于对抗攻击和数据毒化的⼈脸主动⼲扰⽅法,在不影响⼈脸多媒体数据视觉质量的前提下,⼲扰伪造者的模型训练过程,使其难以利⽤被保护的数据进⾏伪造。此外,主动式防御也可结合信息隐藏中的鲁棒⽔印以及模型⽔印等技术,锁定伪造数据的泄露途径,实现主动取证,如ArtificialGANFingerprints [29]、Decentralized Attribution of Generative Models[30]。
常⽤数据集
Deepfake数据集主要⽤来训练以及评估检测模型的性能。Deepfake发展⾄今,出现过很多数据集。⽬前最常⽤的数据集主要有四个,各数据集的基本情况如表2所⽰。其中衡量算法的库内检测性能通常⽤FaceForensics++[22],⽽衡量算法跨库性能时则多使⽤Celeb-DF[23]测试。随着领域内技术的进步和研究视⾓的转变,不同类型的数据集还将继续产⽣和发展,如近期中国科学技术⼤学和微软亚研院联合组建的包含⼈物⾝份参考的特定⼈伪造鉴别数据集“Vox-Deepfake”[26]和Zi等⼈提出的真实场景下的数据集“WildDeepfake”[27]。如下表是Deepfake主要数据集基本情况。
数据集名称数据规
模
数据来源特点
FaceForensics++1000
real,
4000
fake
Youtube早期包含4种伪造⽅法(现新增FaceShifter),包含3种分辨率,整体质量偏低,有明显伪像
Celeb-DF 590
real,
5639
一如既往造句
fake
Youtube基于Deepfakes⽅法进⾏优化,视频视觉质量较⾼,但伪造⽅法与数据类型单⼀。
DeeperForensics-1.01000
real,
厌次11000
fake
Youtube+Actors
增加了数据规模和⼤量亚洲⼈种数据,合成⽅法更好,但真实⼈脸源⾃FF++,易造成数据泄
露问题
DFDC
23645
real,
104500
fake
Actors全真实场景模拟,全真实演员拍摄,迄今为⽌规模最⼤的deepfake数据集,8种伪造⽅法,19
种⼲扰⼿段,难度极⼤。但部分数据有异常。
Datat name Download Generate method Deepfake videos Actors Intro
Deepfake-TIMIT low Deepfake32032 Deepfake-TIMIT high Deepfake32032 Faceforensics-Deepfake1000977 Faceforensics++Deepfake1000977
Datat name Download Generate method Deepfake videos Actors Intro
Deepfake detection Deepfake over300028
Celeb-deepfakeforensics v1Deepfake79513
Celeb-deepfakeforensics v2Deepfake59059
DFDC Deepfake--
WildDeepfake Internet707-
参考⽂献
[2] Nirkin, Y., Keller, Y., & Hassner, T. (2019). Fsgan: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7184-7193).
[3] Li, L., Bao, J., Yang, H., Chen, D., & Wen, F. (2019). Faceshifter: Towards high fidelity and occlusion aware face swapping. arXiv preprint arXiv:1912.13457.
[4] Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., & Nießner, M. (2016). Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2387-2395).
[5] Suwajanakorn, S., Seitz, S. M., & Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (ToG), 36(4), 1-13.
[6] Siarohin, A., Lathuilière, S., Tulyakov, S., Ricci, E., & Sebe, N. (2020). First order motion model for image animation. arXiv preprint arXiv:2003.00196.
[7] Prajwal, K. R., Mukhopadhyay, R., Namboodiri, V. P., & Jawahar, C. V. (2020, October). A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 484-492).
满月酒邀请函[9] Petrov, I., Gao, D., Chervoniy, N., Liu, K., Marangonda, S., Umé, C., ... & Zhang, W. (2020). Deepfacelab: A simple, flexible and extensible face swapping framework. arXiv preprint arXiv:2005.05535.
[10] Shen, Y., Gu, J., Tang, X., & Zhou, B. (2020). Interpreting the latent space of gans for mantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9243-9252).
[11] Zhu, J., Shen, Y., Zhao, D., & Zhou, B. (2020, August). In-domain gan inversion for real image editing. In European Conference on Computer Vision (pp. 592-608). Springer, Cham.
[12] Zhou, P., Han, X., Morariu, V. I., & Davis, L. S. (2017, July). Two-stream neural networks for tam
pered face detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (pp. 1831-1839). IEEE.
[13] Matern, F., Riess, C., & Stamminger, M. (2019, January). Exploiting visual artifacts to expo deepfakes and face manipulations. In 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW) (pp. 83-92). IEEE.
[14] Masi, I., Killekar, A., Mascarenhas, R. M., Gurudatt, S. P., & AbdAlmageed, W. (2020, August). Two-branch recurrent network for isolating deepfakes in videos. In European Conference on Computer Vision (pp. 667-684). Springer, Cham.
[15] Qian, Y., Yin, G., Sheng, L., Chen, Z., & Shao, J. (2020, August). Thinking in frequency: Face forgery detection by mining frequency-aware clues. In European Conference on Computer Vision (pp. 86-103). Springer, Cham.
[16] Chen, S., Yao, T., Chen, Y., Ding, S., Li, J., & Ji, R. (2021). Local Relation Learning for Face Forgery Detection. AAAI 2021.
[17] Zhao, H., Zhou, W., Chen, D., Wei, T., Zhang, W., & Yu, N. (2021). Multi-attentional Deepfake Detection. arXiv preprint
arXiv:2103.02406.
[18] Liu, H., Li, X., Zhou, W., Chen, Y., He, Y., Xue, H., ... & Yu, N. (2021). Spatial-Pha Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain. arXiv preprint arXiv:2103.01856.
[19] Li, L., Bao, J., Zhang, T., Yang, H., Chen, D., Wen, F., & Guo, B. (2020). Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 5001-5010).
[20] Zhao, T., Xu, X., Xu, M., Ding, H., Xiong, Y., & Xia, W. (2020). Learning to Recognize Patch-Wi Consistency for Deepfake Detection. arXiv preprint arXiv:2012.09311.
[21] Haliassos, A., Vougioukas, K., Petridis, S., & Pantic, M. (2020). Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection. arXiv preprint arXiv:2012.07657.
[22] Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Nießner, M. (2019). Faceforensics++: Learning to detect manipulated facial images. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1-11).
[23] Li, Y., Yang, X., Sun, P., Qi, H., & Lyu, S. (2020). Celeb-df: A large-scale challenging datat for deepfake forensics. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3207-3216).
[24] Jiang, L., Li, R., Wu, W., Qian, C., & Loy, C. C. (2020). Deeperforensics-1.0: A large-scale datat for real-world face forgery detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2889-2898).
[25] Dolhansky, B., Bitton, J., Pflaum, B., Lu, J., Howes, R., Wang, M., & Ferrer, C. C. (2020). The deepfake detection challenge datat. arXiv preprint arXiv:2006.07397.
[26] Dong, X., Bao, J., Chen, D., Zhang, W., Yu, N., Chen, D., ... & Guo, B. (2020). Identity-Driven DeepFake Detection. arXiv preprint arXiv:2012.03930.
[27] Zi, B., Chang, M., Chen, J., Ma, X., & Jiang, Y. G. (2020, October). WildDeepfake: A Challenging Real-World Datat for Deepfake Detection. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 2382-2390).
[28] Huang.Q., Zhang. J., Zhou, W., Zhang, W., & Yu, N., Initiative Defen against Facial Manipulation, AAAI 2021.
[29] Yu, N., Skripniuk, V., Abdelnabi, S., & Fritz, M. (2020). Artificial GAN Fingerprints: Rooting Deepfake Attribution in Training Data. arXiv e-prints, arXiv-2007.
[30] Kim, C., Ren, Y., & Yang, Y. (2020). Decentralized Attribution of Generative Models. arXiv preprint arXiv:2010.13974.
现阶段的Deepfake检测主要有两⼤研究难点。
⼀是如何捕捉⾼质量伪造数据中较难发掘的伪像,提升检测准确率与可解释性,
⼆是如何设计真实场景下的鲁棒检测⽅法。
Image manipulation Detetion综述
综述⼀:数字图像篡改操作取证
转⾃公众号【隐者联盟】
Copy-move操作取证技术
图像复制粘贴篡改(copy-move)是数字图像篡改中⽐较常⽤的⼀种⼿段。它把单个图像中的部分区
域复制并粘贴到同⼀图像中不交叠的其它区域,从⽽增加或覆盖掉某些物体。为了使篡改后的图像能够以假乱真,在复制过程中,复制区域可能会经历旋转、缩放等⼏何变换,并且合成图像可能经历加噪、模糊、压缩等后期处理,这进⼀步加⼤了篡改检测的难度。现有的图像复制篡改检测⽅法可以粗略的分为基于图像块的⽅法、基于关键点的⽅法和基于深度学习的⽅法。
1. 基于图像块的⽅法
Fridrich等⼈[1]⾸次定义了复制粘贴篡改,并提出了基于块匹配的检测⽅法,将图像分割成固定⼤⼩且相互重叠的⼦块,并使⽤DCT量化系数作为图像块的特征描述。该算法对图像块的所有DCT系数都进⾏统计计算,所以算法的复杂度很⾼。
社会保险服务个人网页后来,多位学者分别提出了DWT变换、FWT变换等⽤于描述图像块的特征。Bashar等⼈[2]提出了两个鲁棒的特征,分别基于DWT变换和KPCA,并将这些特征向量构成⼀个矩阵。Cozzolino等⼈[3]提出了CHT作为图像的特征。该⽅法将图像中的每⼀个像素点都进⾏处理,提取到每⼀个像素点的特征。为了减少计算量,使⽤了快速的近似最近邻搜索算法对密集区域处进⾏⾼效的计算。
除了频率域的特征提取,基于空间域的特征提取也有很多经典的算法,其中将矩阵特征作为图像的特征进⾏处理就是经常使⽤的⽅法。Mahdian和Saic[4]较早提出了⼀种基于模糊矩阵的⽅法,并使⽤了主成分分析减少特征的维数,最后利⽤k-d树对多维的数据块进⾏相似性分析,从⽽对篡改区域进⾏定
位。Ryu等⼈[5]则将Zernike矩阵作为图像块的特征,并在图像块匹配时使⽤了局部敏感哈希算法加速匹配过程,最终根据匹配块寻找篡改区域。
除了使⽤矩阵特征以外,也有研究者利⽤图像本⾝的⼀些纹理亮度信息作为图像的特征。Davarzani等⼈[6]采⽤多分辨率局部⼆值模式(MLBP)作为图像块的特征信息。为了获得精确的匹配信息,还使⽤了RANSAC算法去除掉错误的匹配。
基于图像块的检测算法虽然能达到⼀定的效果,但是随着图像复制粘贴篡改的多样化,以及实际图像复制篡改过程中经历更多⼏何变换如旋转、缩放等,基于图像块的检测⽅法的鲁棒性会降低。此外,基于图像块的⽅法需要⼤量的计算,难以在实际中进⾏应⽤。为了提⾼检测效率,增强对抗⼏何变换的鲁棒性,基于关键点匹配的检测⽅法成了新的研究热点。
2. 基于关键点的⽅法
基于关键点的检测⽅法计算效率⾼且有较强的鲁棒性,适⽤于实际情况下的多类型图像复制粘贴篡改检测,因此研究者也致⼒于⽤基于关键点的检测⽅法来解决各种图像复制粘贴篡改检测的问题。
该类⽅法⾸先从整幅图像中提取关键点,然后对其进⾏特征描述提取和匹配过程,最后通过得到关键点匹配进⾏后续处理从⽽定位复制粘贴篡改区域。
Huang等⼈[7]采⽤SIFT作为图像关键点检测与特征描述的⽅法,并使⽤Best Bin First算法来寻找相似的特征向量,进⽽确定匹配关键点的位置。此后很多学者也提出了基于SIFT特征的检测⽅法,Pan和Lyu[8]使⽤了RANSAC算法来计算复制粘贴区域之间的仿射变换关系。Amerini等⼈[9]基于2NN准则提出了新的匹配⽅法G2NN以应对多重复制粘贴的情形。除了SIFT以外,研究者还提出了其它⼀系列的优秀算法。Xu等⼈[10]使⽤SURF作为提取图像关键点特征的⽅法。相⽐SIFT,SURF运算⽐较简单,计算效率更⾼。此外,Yang等⼈[11]采⽤了SIFT和KAZE的融合作为提取关键点特征的⽅法。
针对复杂的复制粘贴篡改检测以及定位的精确度的问题,有研究者提出了更为系统的检测框架。Ardizzone等⼈[12]利⽤提取的SIFT特征点来构建Delaunay 划分,然后利⽤每个三⾓形块的颜⾊信息和⾓度信息作为三⾓形区域的特征向量进⾏匹配。Li等⼈[13]⾸先使⽤ SLIC算法对图像进⾏分割成⼀系列的超像素块,根据分割块内关键点匹配对的数量处理匹配块,提升了处理的效率。Zandi等⼈[14]通过⾃适应迭代的⽅法,根据每个迭代周期的结果迭代地调整关键点的分布还有匹配过程以及仿射变换矩阵计算。Li等⼈[15]通过降低关键点提取时的阈值,使得⼩区域、平滑区域可以提取⾜量的关键点,并且提出了⼀种新的层次匹配策略来解决⼤量关键点匹配问题。和基于块匹配的检测⽅法相⽐,基于关键点匹配的⽅法避免了全局搜索,⼤⼤提⾼了检测效率,且对⼏何变换具有更好的鲁棒性。
3.基于深度学习的⽅法
做饭的说说
随着深度学习尤其是卷积神经⽹络的发展,研究者开始尝试使⽤深度学习的⽅法进⾏图像复制粘贴篡改的检测。Wu等⼈[16]设计了端到端的BusterNet,采取双分⽀结构,对图像操作和图像相似性进⾏检测,具有⼀定的效果,可以同时识别源区域和⽬标区域。Chen等⼈[17]提出⼀种串⾏分⽀⽹络模型,包含相似性检测⽹络CMSDNet和源与⽬标鉴别⽹络STRDNet。STRDNet研究CMSDNet获得的相似块的分类问题,相对于BusterNet的分⽀更加简单且准确率更⾼。
Barni等⼈[18]提出了多分⽀⽹络DisTool对图像复制篡改进⾏检测并识别源区域和⽬标区域,分别为两个Siame组成的4-Twins Net分⽀和⼀个Siame分⽀。该⽹络在真实的测试场景中也表现良好。Zhong等⼈[19]提出了基于Den-InceptionNet的检测⽅案,充分使⽤了多尺度的信息和稠密特征链接,设计了⾦字塔特征提取器,特征相关匹配和层次后处理模块。该算法对⼏何变换操作和JPEG压缩都有⼀定的鲁棒性。
Inpainting操作取证技术
图像修复(inpainting)技术是数字图像篡改中⽐较常⽤的⼀种⼿段,它的核⼼思想是根据图像受损区域周围的已知像素信息通过插值相邻像素对未知区域进⾏修复[20]。⽬前,传统的图像inpainting算法可以分成两类:基于块的⽅法和基于扩散的⽅法。
基于块的⽅法主要是通过搜索图像已知区域的图像块,寻找合适的候选块对受损区域进⾏填补以达到
修复的⽬的;
基于扩散的⽅法通常是通过求解偏微分⽅程或者依据扩散系统将图像信息从边界传播扩散到未知区域进⾏修复。
这⾥没有提到利⽤GAN实现的Inpainting算法,或许是个研究的点
当恶意篡改者使⽤图像inpainting技术进⾏篡改并将这类图像应⽤于司法、科学等领域时,将会造成不可预料的严重影响。现有的针对图像inpainting的检测⽅法⼤致可以分为两类:基于传统⼿⼯特征的⽅法和基于深度学习的⽅法。
1.基于传统⼿⼯特征的⽅法
最初,Wu等⼈[21]在2008年提出了⼀种基于零连通特征和模糊⾪属度的检测⽅法。⾸先对图像中的块进⾏零连通标记,筛选可疑区域,然后通过计算模糊⾪属度识别可疑区域内的修复块,并通过割集实现最终的修复篡改区域的定位。
2013年,Bacchuwar等⼈[22]提出了⼀种可以同时检测图像修复和图像复制-粘贴两种篡改的⽅法。该⽅法利⽤图像的亮度分量,对可疑区域中的块进⾏中值匹配,引⼊“跳跃块”,从⽽有序检测篡改区域。它相较于⽂献[21]加速了修复区域的定位,但仍需要⼈⼯选择区域。
为减少最佳匹配块的搜索时间,Chang等⼈[23]通过检测关键值进⾏相似度检测,提出了⼀种基于权值变换的搜索算法,包括可疑区域检测和篡改区域识别两个阶段。Liang等⼈[24]⾸先采⽤中⼼像素映射搜索可疑块对,在装载因⼦和搜索范围⽅⾯加速了对可疑块的搜索,使⽤最⼤零连通性区域标记和⽚段拼接检测技术实现篡改区域的定位。
申林川等⼈[25]对已有的图像修复检测⽅法进⾏改进,利⽤⼀种hash映射函数将图⽚三维的颜⾊信息转换成⼀维的hash值映射⾄哈希表,再结合相似向量滤波和基于质⼼的篡改区域定位技术,实现篡改区域最终的准确定位。
另外,JPEG是⽬前⽹络中使⽤最⼴泛的图像格式。Zhao等⼈[26]针对JPEG图像展开研究,通过计算和分割不同质量因⼦下的修复图像和再保存JPEG图像的绝对差值之和检测出被篡改的区域,不需要任何⼿动操作。
Liu等⼈[27]也聚焦于JPEG图像,提出了⼀种⼤规模特征挖掘的经验⽅法,包含边缘密度和联合密度特征,采⽤集成学习,有效地检测了包括图像修复在内的复合攻击下的图像篡改,特别是在重压缩质量低于原始JPEG图像质量的情况下,显著提⾼了检测精度。
Li等⼈[28]针对基于扩散的修复⽅法进⾏区域检测,发现修复区域和未修复区域图像沿垂直于梯度⽅向的拉普拉斯变换是不同的。基于此,根据通道内和通道间的局部变化⽅差构造了⼀个特征集。最后,
设计了两个有效的后处理操作来进⼀步细化定位结果。但该⽅法鲁棒性较差,特别是对经过JPEG压缩后处理的图像取证性能显著下降。
刘婷婷等⼈[29]提出了⼀种梯度域导向滤波增强的图像扩散修复检测算法。该算法对输⼊图像的各个颜⾊通道分别进⾏梯度域导向滤波增强,从多⾓度捕捉图像修复带来的影响,以实现图像扩散修复区域的定位。
基于传统⼿⼯特征的图像inpainting检测算法在⼀些⽅⾯存在⼀定的局限性,⽐如需要⼿动选择区域、只针对特定的图像inpainting技术、鲁棒性较差等。近年来为提⾼检测效率,增强算法对抗⼏何变换的鲁棒性,基于深度学习的图像inpainting检测算法也在不断发展。
2.基于深度学习的⽅法
随着深度学习的发展,研究⼈员开始尝试使⽤深度学习⽅法实现图像修复检测。
张益唐事件
2018年,Zhu等⼈[30]提出了⼀种基于深度神经⽹络的图像inpainting篡改检测技术,通过神经⽹络⾃动提取篡改痕迹,实现图像像素级的预测并对修复区域进⾏定位。该框架在编码器-解码器的全卷积⽹络结构基础上还引⼊了特征⾦字塔⽹络对特征图进⾏信息补充,填充图像的语义信息,且具有⼀定的泛化性。进⼀步地,Zhu等⼈[31]提出了新的⽹络框架,并构建了类标签矩阵,设计了加权交叉熵解决图像像素不