Unsupervised steganalysis based on artificial training sets
摘要
- 结合监督学习和人造训练数据集提出无监督隐写算法
- 实验情况:
- 8个不同的图像数据集
- 基于rich模型的图像特征
- 3种隐写算法: LSB、HUGO、WOW
- 使用机器学习证明了提出方法的适配性
实验的设定
数据集A (包含stego图片和cover图片)—(隐写)—> 数据集B(将数据集A的全部数据使用隐写术再隐写一遍) ——> 数据集C(将数据集B的再使用隐写术隐写一遍)
通过对A C 两者得到的分界线来区分数据集B,A C 两者的差异在于A 为stego cover,C为 triple stego,double stego。B 是由stego double stego 构成的,对应于A的cover stego,如果可以将B很好分类的话,也就可以很好分类A
数据集的设定
- 实验的数据集:
- BOSSBASE数据集 训练集为2W张
- 9500stego-9500cover用于训练 剩下1000张图片用于测试
- 使用HUGO算法把Threhold给修复了,从90过渡到了255
- BOSSRANK
- 1000张 512*512图片
- 847来源于BOSSBASE中的摄像头 153来源于不是BossBase的摄像头,通过修复之后 471cover和471image
- BOSSBASE数据集 训练集为2W张
- 实验对照
- 无监督学习——使用
G-SVM用于特征提取 ——>ANOVA F-VALUE(降维) - 监督学习——集成学习
- 无监督学习——使用
- 训练测试
- 9500stego 9500cover用于监督训练,测试的时候使用不同的数据集,这样可以模拟到CSM情况
- 无监督训练是直接对测试集进行操作,之后进行学习?
BOSS RANK 实验
设定上模拟真实情况发生,
总结
提出了一种新的无监督隐写分析方法。我们展示了如何无监督隐写分析可以通过使用人工训练集和监督分类来解决,如果我们知道用于隐写术的算法和嵌入比特率。因此,建议的方法是适用于有针对性的隐写分析。使用所提出的方法,我们也可以绕过CSM问题,并优于国家的最先进的方法。本文的主要贡献是在机器学习问题中消除了训练数据集的必要性
此外,通过论文中提出的不同实验,我们表明所提出的方法可以解决复杂的现实世界情况,其中我们没有明确的训练数据库(例如,当图像来自不同的数据库时),减少隐写图像的数量或者真实的地逐个获得图像。我们表明,建议的方法提供了显着的性能,即使图像是不均匀地从不同的数据库中选择,或者如果嵌入比特率是未知的,不同的隐写样本的变量
补充
On Dangers of Overtraining Steganography to Incomplete Cover Model 这篇论文验证了为什么 Threshold需要设置为255,而不能设置为90。
这里说明一下:在BOSSBase隐写使用Hugo默认的在(0-90)像素操作,大于90后不修改。这里如果设置为90,就只修改0-90的像素
HUGO的解析
zhuanlan.zhihu.com/p/345915051
源码: github.com/daniellerch… 按照源码上分析的话,这里应该是只要在测试集上操作学习即可,而且无须标签