调研报告
摘要
关键词:
第一章 绪论
1.1 研究背景
随着数字图像技术的飞速发展和互联网的普及,图像数据的规模呈现出指数级增长的趋势。参考《数据时代2025》报告的预测,2025年的数据产生规模将增至175ZB,相当于每天产生491EB的数据。[1]根据COOL NERDS MARKETING数据显示,2025年截止至3月18日,全球每分钟上传至facebook的图片数量有136000张[2],即平均每日上传图片数超1.9亿张。这一趋势对图像处理、存储、检索技术提出了前所未有的挑战。在这样的背景下,如何高效地管理和利用海量图像资源成为研究者关注的重点和亟待解决的问题。
图像哈希作为一种将图像映射为紧凑二进制码的技术,在图像检索、版权保护、图像篡改检测等多个领域展现出广泛的应用前景,其重要性也日益增加。图像哈希的核心在于将图像映射为具有鲁棒性和判别性的二进制码,以支持对大规模图像数据的快速匹配与内容识别。
图像哈希的研究最早可追溯至20世纪末期,由Schneider和Chang在1996年的国际图像处理会议上提出。 [3]。2015年Jiang等人提出了一种用于内容认证的新颖且弹性的图像哈希技术,该技术与通过采用安全哈希函数来保持信息完整性的目标相一致[4]。随着机器学习尤其是深度学习的发展,基于卷积神经网络的图像哈希算法逐渐成为主流,极大地提升了哈希编码的精度与效率 [5]。
近年来,图像哈希技术不仅被应用于传统图像检索任务,还拓展到多媒体安全、视频指纹、跨模态检索等新兴领域。同时,随着对抗攻击、模型压缩、联邦学习等新技术的兴起,图像哈希在安全性、隐私保护等方面也面临新的挑战与机遇。
1.2 图像哈希的定义
数据检索方法可按照检索方式的不同分为和精确检索[6]和近似最近邻搜索,图像哈希算法就是一种针对图像的数据检索算法。
图像哈希是指将一幅图像映射为一个固定长度的二进制序列的过程。与传统的加密哈希不同,图像哈希并不追求唯一性和不可逆性,而是更多强调对图像内容变化的感知能力和鲁棒性,因此也被称为“感知哈希”[7]。
一个理想的图像哈希函数应当满足两个基本性质,即鲁棒性[8]和唯一性[9]。鲁棒性指的是即使图像经历了一些常见的非内容改变操作,例如压缩、缩放、旋转、亮度变化等,其生成的哈希码仍保持一致或仅有微小差异。唯一性指的是对于内容明显不同的图像,它们的哈希码之间应有较大的差异。
哈希算法可按照是否依赖数据标注分为两类,无监督哈希算法和有监督哈希算法,有监督哈希算法又被称为哈希学习。无监督哈希算法通常采用随机投影作为哈希函数,而不考虑数据分布及内部结构。以局部敏感哈希[10]为例,它用一组随机线性映射作为哈希函数,确保原始空间中余弦距离小的数据点以足够高的概率落入相同的哈希桶中。局部敏感哈希能够为特定度量空间中的相似性保持提供很好的渐近理论保证,在一定程度上保证了检索性能。
1.3 调研报告结构
本调研报告围绕图像哈希技术展开系统性研究,旨在深入探讨其理论基础、关键技术、发展脉络与未来趋势。全文共分为六章,结构安排如下所示。
第一章 绪论:介绍图像哈希的研究背景、定义,并说明本文的研究意义与组织结构。
第二章 早期图像哈希:回顾图像哈希发展的初期阶段,重点介绍基于正交变换(如DFT、DCT、DWT、FMT)、局部特征点(如SIFT、SURF、BRISK、ORB)、统计特征(颜色直方图、灰度共生矩阵、矩特征)以及数据降维(PCA、NMF)等四类主流方法,分析其核心思想、代表算法及优缺点。
第三章 深度学习时代的图像哈希:
第四章 图像哈希未来发展方向:
第五章 总结:
引用:列出文中引用的所有参考文献,为基于本文进一步研究提供支持。
第二章 早期图像哈希
随着数字图像在多媒体领域的广泛应用,如何快速有效地识别图像内容、检测篡改行为以及实现图像认证,成为研究者关注的重点问题。在此背景下,图像哈希技术应运而生,并逐步发展出一系列基于传统信号处理和数学变换的方法,例如1996年Schneider和Chang最初提出图像哈希这一概念使用的算法就是基于离散小波变换和量化系数的哈希算法[3],这一阶段的图像哈希技术统称为“传统图像哈希”或“早期图像哈希”,这一阶段一直持续到深度学习与图像哈希相结合之前。其核心目标是通过提取图像的稳定特征,生成具有鲁棒性和可检索性的二值编码,从而实现图像识别、版权保护和篡改检测等功能。
本章将系统将重点介绍几类具有代表性的图像哈希方法,包括基于正交变换、局部特征点、统计特征、数据降维等四类主流算法。深度学习虽推动了图像哈希技术的发展,但许多传统方法不仅仍在实际应用中表现优异并不断被改良,其特征提取策略与算法设计思想也为后续深度学习时代的研究提供了坚实的基础和方向指引。
2.1 基于正交变换的图像哈希算法
基于正交变换的图像哈希算法主要利用正交变换在变换域中提取图像的鲁棒特征,构造图像哈希。
正交变换之所以被广泛应用于图像哈希领域,主要因为其具有特征集中性、鲁棒性、集合不变性、去相关性、安全性。特征集中性是指正交变换能够将图像的显著统计特征集中在低频区域,便于提取稳定特征。鲁棒性是指正交变换低频系数对内容保持型操作具有较强的容忍能力。集合不变性是指一些正交变化具有旋转不变性和平移不变性。去相关性是指正交变换能有效去除图像像素间的冗余信息,提高特征表示的紧凑性与判别性。安全性是指部分正交变化本身具备随机性,可用来构建安全哈希。
常用的正交变换包括DFT即离散傅立叶变换、DCT即离散余弦变换、DWT即离散小波变换、FMT即傅里叶梅林变换等。
2.2.1 离散傅立叶变换DFT
DFT公式如下:
对于DFT,Qin等人就曾提出了一种在离散傅里叶域中构建的鲁棒图像哈希方法。[11]该方法首先对图像进行尺寸归一化和基于全变分的滤波处理,以消除尺度变化和噪声干扰,提升输入图像的一致性。随后,利用旋转投影生成次级图像,并对其进行离散傅里叶变换,从中提取具有鲁棒性的频域特征。为了更有效地表达图像的主要视觉内容,该方法采用非均匀采样策略 ,在低频和中频区域选取更多采样点,以增强特征的代表性。最后,对提取的特征向量进行置乱与量化处理,生成安全的二进制哈希码。安全性方面,该方法设置了密钥控制机制,确保了算法的安全性。
Ouyang等人也提出了基于四元数离散傅里叶变换与对数极坐标变换相结合的图像哈希方法。[12]该方法充分利用 QDFT 在处理彩色图像三通道信息时的优势,能够更全面地保留图像的颜色和结构特征。同时,通过对数极坐标变换构建具有旋转不变性的次级图像,从而有效提升了算法对图像旋转等几何攻击的鲁棒性。最终从次级图像中提取低频 QDFT 系数的幅度信息,并根据这些系数之间的相关性生成哈希序列。安全性方面,该方法通过密钥对其进行置乱,增强了系统的安全性。
2.2.2 离散余弦变换DCT
DCT正变换公式如下:
DCT逆变换公式如下:
对于DCT,Lin等人提出了一种基于图像中不同图像块在相同位置的DCT系数之间的不变关系的图像哈希方法。[13]该方法首先将图像划分为非重叠块,并对每个图像块进行 DCT 变换,在所有图像块中选取相同位置的 DCT 系数,分析其数值之间的相对关系。这些关系在经历 JPEG 有损压缩等可接受操作后仍然保持不变,从而为图像哈希提供了稳定的特征基础。
Tang等人提出了一种基于主导离散余弦变换系数的鲁棒图像哈希方法。[14]该方法首先对图像进行归一化处理,随后将其划分为不重叠的图像块,并对每个图像块执行二维 DCT 变换。接着,从每个块的 DCT 系数矩阵中提取第一行和第一列的低频重要系数 ,构成初始特征矩阵。最后通过对该矩阵进行列间距离计算与量化处理生成最终的二进制哈希序列。
2.2.3 离散小波变换DWT
DWT 的基本思想是通过滤波器组将信号分解为不同尺度的近似和细节信息。其一维变换可表示为:
对于DWT,除了Schneider和Chang提出的基于离散小波变换和量化系数的哈希算法[3],Venkatesan等人提出了一种基于DWT和随机化信号处理策略的图像哈希方法。[15]该方法首先对图像进行三级离散小波分解,获取多尺度下的低频子带系数,分别计算这些子带系数的均值 和方差作为特征描述,通过对这些统计特征进行量化和二值化处理,生成最终的二进制哈希序列。
2024年,Hu等人提出了两种具备鲁棒性、可区分性、安全性的基于分块离散小波变换的图像哈希算法。[16]两种方案分别为基础方案和基于基础方案优化的改良方案,基本方案结合了分块离散小波变换、奇异值分解和统计特征提取,并引入混沌加密技术对特征进行加密,生成最终的二进制哈希序列。改进方案IC-BDWT再基础方案上进一步加入了图像校正机制,使其哈希结果具备更强的抗旋转攻击能力。两种方法均证明具有良好的鲁棒性和判别性能,尤其改进方案在面对图像旋转等几何攻击时表现出显著优势。
2.2.4 傅里叶梅林变换FMT
FMT第一步进行傅里叶变换:
FMT第二步将频域幅值转换为对数极坐标形式:
对于FMT,Swaminathan等人提出了基于傅里叶变换特征与可控随机化的新型图像哈希算法。[17]该算法对图像进行归一化处理并提取其频域低频幅度信息作为鲁棒特征,随后引入一个由密钥控制的随机投影矩阵 ,对特征向量进行加密性变换,最后通过量化和二值化生成最终的二进制哈希码。在安全性方面,作者建立了一个通用的安全分析框架,将哈希值建模为随机变量,并利用微分熵衡量其不确定性,系统评估了所提方法在未知密钥条件下抵抗伪造和逆向攻击的能力,通过实验证明了该算法对JPEG压缩等数字操作具有良好的鲁棒性。
2018年,Abdullahi等人提出了一种基于傅里叶梅林变换与分形编码相结合的新型安全且鲁棒的图像哈希算法。[18]该算法对输入指纹图像进行预处理并提取感兴趣区域,随后对图像块进行傅里叶梅林变换 ,利用其在旋转和平移操作下的不变性,提取频域中的低频幅度特征,将这些频域特征作为分形编码的输入,通过自相似映射实现特征的压缩与降维,生成紧凑且具有较强判别能力的哈希序列。安全性方面,该方法为了提升系统的安全性,算法引入了一个基于混沌系统的密钥控制机制 ,对生成的哈希向量进行加密,确保只有掌握密钥的用户才能正确计算和验证哈希值,从而有效防止伪造和非法篡改。实验结果表明,该方法具有良好的鲁棒性,同时具备较高的安全性和抗攻击能力。
2.2 基于局部特征点的图像哈希算法
基于局部特征点的图像哈希算法通过检测图像中的关键点并提取其周围区域的描述符,构建鲁棒的哈希序列。基于局部特征点的图像哈希算法的核心优势在于其几何不变性、局部稳定性、判别性。 几何不变性指的是对旋转、缩放、平移等几何变化具有鲁棒性。局部稳定性指的是对遮挡和局部变形不敏感。判别性指的是不同图像的特征点分布差异显著。
常见的局部特征点的图像哈希算法包括基于SIFT即尺度不变特征变换、SURF即加速鲁棒特征、二值特征描述符等的图像哈希算法。
2.2.1 尺度不变特征变换SIFT
2004年,Lowe等人提出通过聚类 SIFT 特征生成视觉词典,再通过BoW模型生成图像级统计直方图作为哈希基础特征,正是在此文中他提出了SIFT。[19]SIFT 算法通过尺度空间极值检测、关键点定位、方向分配和描述符生成四步构建具有旋转与尺度不变性的特征向量。SIFT的过程可分为尺度空间极值检测、关键点方向分配、描述符生成三步。
-
尺度空间极值检测:
这个公式用于在DoG空间检测局部极值点。
-
关键点方向分配:基于梯度直方图确定主方向。
-
描述符生成:将关键点邻域划分为 4×4 子区域,计算每个区域的 8 方向梯度直方图,形成 128 维向量。
Lv等人提出了一种结合SIFT和Harris来提取图像特征点基于形状上下文与鲁棒局部特征点的哈希算法。[20]该方法首先采用改进的SIFT-Harris检测器提取图像中具有高稳定性的关键点,这些关键点在面对旋转、缩放、亮度变化等常见操作时仍能保持良好的可重复检测性,将每个关键点周围的局部特征嵌入到基于形状上下文的描述子中,构建具有判别性和不变性的特征表示,最后通过量化和编码生成紧凑的二进制哈希码。
Tang等人提出对 SIFT 特征主方向对齐后进行环形分区采样,提取二值化梯度统计特征,并通过密钥控制的伪随机序列对特征排序加密生成最终哈希,这个作法是为了在前人的基础上提升效率与鲁棒性。[21]
2.2.2 加速鲁棒特征SURF
SURF在保持SIFT几何不变性的同时显著提升计算效率的一个改进算法。
-
快速特征检测:使用盒式滤波器近似 Hessian 矩阵:
通过积分图像加速二阶导数计算。
-
描述符生成:统计关键点邻域内 Haar 小波响应,形成 64 维简化向量。
Paul等人提出了一种使用SURF提取图像关键点及其对应的高维特征描述子基于形状上下文的图像哈希算法。[22]该方法首先利用SURF算法提取图像中的关键点及其对应的高维特征描述子,这些特征具有尺度不变性和旋转不变性,能够有效应对常见的几何攻击和内容保持型操作,结合形状上下文描述方法对关键点的空间分布结构进行建模,将融合后的特征向量进行量化与二值化处理,生成最终的二进制图像哈希码。
2.2.3 二值特征描述符
为满足实时性需求,ORB和BRISK等二值描述符也相继被引入哈希算法。 ORB是通过改进 FAST 角点检测并添加方向信息,通过改进的 BRIEF 描述符生成 256 位二值向量。BRISK是使用圆形采样模式,通过亮度比较生成二进制串。
2.3 基于统计特征的图像哈希算法
基于统计特征的图像哈希算法通过提取图像全局或局部区域的统计分布特性,构建对内容保持型操作鲁棒的哈希序列。此类方法的核心优势在于其计算高效性、分布鲁棒性、紧凑性。高效性指的是基于统计特征的图像哈希算法无需复杂特征点检测。分布鲁棒性指的是基于统计特征的图像哈希算法对噪声和局部形变不敏感。紧凑性指的是基于统计特征的图像哈希算法采用低维特征表示,生成的图像哈希码相对更短。统计特征主要从像素值分布、纹理模式和频域统计三个维度描述图像内容。
常见的基于统计特征的图像哈希算法包括基于颜色直方图、灰度共生矩阵、矩特征等方法。
2.3.1 基于颜色直方图的哈希算法
颜色直方图统计图像中各颜色区间的像素分布,其数学表示为:
Gharde等人提出了一种基于模糊颜色直方图的图像哈希算法。[23]该方法首先将图像从 RGB 空间转换到 CIEL*a*b*颜色空间,在该颜色空间中构建模糊颜色直方图,通过选取最具代表性的直方图区间并进行归一化处理,提高其对内容保持型攻击的鲁棒性,通过对特征向量进行量化与排序比较,生成固定长度的二进制哈希码。
构建模糊颜色直方图的公式:
2.3.2 基于灰度共生矩阵的哈希算法
灰度共生矩阵描述像素对的空间分布特性:
从中可提取对比度、相关性、能量等统计量。
Ojala等人提出了一种基于LBP的图像哈希。[24]
-
计算图像的旋转不变LBP特征图:
-
统计LBP特征图的直方图
-
对直方图进行Z-score标准化
-
通过阈值量化生成二进制哈希序列
该方法对纹理变化敏感,实验证明该算法用于相似纹理检索时发挥显著优于其他算法。
2.3.3 基于矩特征的哈希算法
图像矩描述形状和灰度分布特征,具有几何不变性。
-
Hu不变矩:
-
Zernike矩:
Ouyang等人提出了一种利用四元数Zernike矩的感知图像哈希算法。[25]该方法第一步检测图像中的关键点,将图像划分为规则网格,并在每个网格内统计局部关键点的分布模式,利用四元数Zernike矩对这些特征进行量化生成二进制哈希码。相较于前人,这个算法的紧凑性更好,同时具有更好的分类性能。
2.4 基于数据降维的图像哈希算法
基于数据降维的图像哈希算法通过将高维图像特征映射到低维嵌入空间,提取最显著的视觉特征构建紧凑哈希。降维技术可有效解决维度灾难问题,同时提升图像哈希的鲁棒性和计算效率。维度灾难是指在特征维度较高时,数据在空间中的分布变得稀疏,导致距离度量失效、模型训练困难、计算复杂度急剧上升等问题。
常见的基于数据降维的图像哈希算法包括基于PCA即主成分分析、NMF即非负矩阵分解等方法。
2.4.1 基于主成分分析的哈希算法
PCA通过正交变换将原始特征转换到主成分空间:
Kozat等人提出首个基于PCA的图像哈希框架。[26]
- 将图像划分为8*8子块
- 对每个子块提取DCT系数作为初始特征
- 计算特征协方差矩阵并求解前k个主成分
- 对主成分系数进行符号量化,生成图像哈希码。
2.4.2 基于非负矩阵分解的哈希算法
NMF将非负矩阵分解为基矩阵和系数矩阵:
Tang等人提出基于NMF的图像哈希。[27]
- 将图像划分为16*16子块。
- 构建特征矩阵。
- 优化目标函数。
- 取系数矩阵H的列均值作为特征,生成图像哈希码
经过实验证明,该方法对伽马校正和色彩平衡等操作具有优于其他算法的性能。其优于前人的关键在于:NMF 能够有效保留图像的局部非负结构信息。相比PCA等线性降维方法,NMF 更符合图像像素值的物理意义,具备更好的可解释性。
第三章 深度学习时代图像哈希
深度学习时代的图像哈希可根据是否依赖数据标注分为有监督深度图像哈希算法和无监督深度图像哈希算法。
第四章 图像哈希未来发展方向
第五章 总结
引用
[1] Data Age 2025: the datasphere and data-readiness from edge to core
[3] Schneider M, Chang S F. A robust content based digital signature for image authentication[C]//Proceedings of 3rd IEEE international conference on image processing. IEEE, 1996, 3: 227-230.
[4] Indyk P, Motwani R. Approximate nearest neighbors: towards removing the curse of dimensionality[C]//Proceedings of the thirtieth annual ACM symposium on Theory of computing. 1998: 604-613.
[5] Luo X, Wang H, Wu D, et al. A survey on deep hashing methods[J]. ACM Transactions on Knowledge Discovery from Data, 2023, 17(1): 1-50.
[6] Rui Y, Huang T S, Chang S F. Image retrieval: Current techniques, promising directions, and open issues[J]. Journal of visual communication and image representation, 1999, 10(1): 39-62.
[7] Gionis A, Indyk P, Motwani R. Similarity search in high dimensions via hashing[C]//Vldb. 1999, 99(6): 518-529.
[8] F. Ahmed, M.Y.Siyal, V.U. Abbas, “A secure and robust hash-based scheme for imageauthentication,”Signal Processing, vol. 90, no. 5, pp. 1456s–1470,2010.
[9] L. Kang, C. Luand Chao-Yung Hsu, “Compressive sensing-based image hashing” IEEEInternational Conference on Image Processing (ICIP) , pp. 1285-1288, 2009.
[10] Rajkumar R, Singh K M. Digital image forgery detection using SIFT feature[C]//2015 International Symposium on Advanced Computing and Communication (ISACC). IEEE, 2015: 186-191.
[11] Qin C, Chang C C, Tsou P L. Robust image hashing using non-uniform sampling in discrete Fourier domain[J]. Digital Signal Processing, 2013, 23(2): 578-585.
[12] Ouyang J, Coatrieux G, Shu H. Robust hashing for image authentication using quaternion discrete Fourier transform and log-polar transform[J]. Digital Signal Processing, 2015, 41: 98-109.
[13] Lin C Y, Chang S F. A robust image authentication method distinguishing JPEG compression from malicious manipulation[J]. IEEE transactions on circuits and systems for video technology, 2001, 11(2): 153-168.
[14] Tang Z, Yang F, Huang L, et al. Robust image hashing with dominant DCT coefficients[J]. Optik, 2014, 125(18): 5102-5107.
[15] Venkatesan R, Koon S M, Jakubowski M H, et al. Robust image hashing[C]//Proceedings 2000 International Conference on Image Processing (Cat. No. 00CH37101). IEEE, 2000, 3: 664-666.
[16] Hu C, Yang F, Xing X, et al. Two Robust Perceptual Image Hashing Schemes Based on Discrete Wavelet Transform[J]. IEEE Transactions on Consumer Electronics, 2024.
[17] Swaminathan A, Mao Y, Wu M. Robust and secure image hashing[J]. IEEE Transactions on Information Forensics and security, 2006, 1(2): 215-230.
[18] Abdullahi S M, Wang H. Fourier-Mellin transform and fractal coding for secure and robust fingerprint image hashing[C]//2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2018: 1-7.
[19] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60: 91-110.
[20] Lv X, Wang Z J. Perceptual image hashing based on shape contexts and local feature points[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 1081-1093.
[21] Tang Z, Zhang X, Li X, et al. Robust image hashing with ring partition and invariant vector distance[J]. IEEE transactions on information forensics and security, 2015, 11(1): 200-214.
[22] Paul M, Karsh R K, Talukdar F A. Image hashing based on shape context and speeded up robust features (SURF)[C]//2019 International Conference on Automation, Computational and Technology Management (ICACTM). IEEE, 2019: 464-468.
[23] Gharde N D, Thounaojam D M, Soni B, et al. Robust perceptual image hashing using fuzzy color histogram[J]. Multimedia tools and applications, 2018, 77: 30815-30840.
[24] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on pattern analysis and machine intelligence, 2002, 24(7): 971-987.
[25] Ouyang J, Wen X, Liu J, et al. Robust hashing based on quaternion Zernike moments for image authentication[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2016, 12(4s): 1-13.
[26] Kozat S S, Venkatesan R, Mihçak M K. Robust perceptual image hashing via matrix invariants[C]//2004 International Conference on Image Processing, 2004. ICIP'04. IEEE, 2004, 5: 3443-3446.
[27] Z. Tang, X. Zhang and S. Zhang, “Robust perceptualimage hashing based on ring partition and NMF,”IEEE Transactions onKnowledge and Data Engineering, vol. 26, no. 3, pp. 711-724, 2014.