Unsupervised steganalysis based on artificial training sets 论文阅读笔记

Unsupervised steganalysis based on artificial training sets

摘要

结合监督学习和人造训练数据集提出无监督隐写算法
实验情况：
- 8个不同的图像数据集
- 基于rich模型的图像特征
- 3种隐写算法： LSB、HUGO、WOW
使用机器学习证明了提出方法的适配性

实验的设定

数据集A （包含stego图片和cover图片）—(隐写)—> 数据集B(将数据集A的全部数据使用隐写术再隐写一遍) ——> 数据集C（将数据集B的再使用隐写术隐写一遍）

通过对A C 两者得到的分界线来区分数据集B，A C 两者的差异在于A 为stego cover,C为 triple stego,double stego。B 是由stego double stego 构成的，对应于A的cover stego，如果可以将B很好分类的话，也就可以很好分类A

数据集的设定

实验的数据集：
- BOSSBASE数据集训练集为2W张
  - 9500stego-9500cover用于训练剩下1000张图片用于测试
  - 使用HUGO算法把Threhold给修复了，从90过渡到了255
- BOSSRANK
  - 1000张 512*512图片
  - 847来源于BOSSBASE中的摄像头 153来源于不是BossBase的摄像头，通过修复之后 471cover和471image
实验对照
- 无监督学习——使用G-SVM 用于特征提取 ——> ANOVA F-VALUE(降维)
- 监督学习——集成学习
训练测试
- 9500stego 9500cover用于监督训练，测试的时候使用不同的数据集，这样可以模拟到CSM情况
- 无监督训练是直接对测试集进行操作，之后进行学习？

BOSS RANK 实验

设定上模拟真实情况发生，

总结

提出了一种新的无监督隐写分析方法。我们展示了如何无监督隐写分析可以通过使用人工训练集和监督分类来解决，如果我们知道用于隐写术的算法和嵌入比特率。因此，建议的方法是适用于有针对性的隐写分析。使用所提出的方法，我们也可以绕过CSM问题，并优于国家的最先进的方法。本文的主要贡献是在机器学习问题中消除了训练数据集的必要性

此外，通过论文中提出的不同实验，我们表明所提出的方法可以解决复杂的现实世界情况，其中我们没有明确的训练数据库（例如，当图像来自不同的数据库时），减少隐写图像的数量或者真实的地逐个获得图像。我们表明，建议的方法提供了显着的性能，即使图像是不均匀地从不同的数据库中选择，或者如果嵌入比特率是未知的，不同的隐写样本的变量

补充

On Dangers of Overtraining Steganography to Incomplete Cover Model 这篇论文验证了为什么 Threshold需要设置为255，而不能设置为90。

这里说明一下：在BOSSBase隐写使用Hugo默认的在(0-90)像素操作，大于90后不修改。这里如果设置为90，就只修改0-90的像素

HUGO的解析

zhuanlan.zhihu.com/p/345915051

源码： github.com/daniellerch… 按照源码上分析的话，这里应该是只要在测试集上操作学习即可，而且无须标签