来源:SCI期刊网 分类:电子论文 时间:2022-04-13 09:57 热度:
摘 要:传统信息隐藏算法通过修改载体来嵌入秘密信息,难以从根本上抵抗基于统计的信息隐藏分析方法的检测,为此提出一种基于生成对抗网络的无载体信息隐藏方法. 该方法将生成对抗网络中的类别标签替换为秘密信息作为驱动,直接生成含密图像进行传递,再通过判别器将含密图像中的秘密信息提取出来,并借助生成对抗网络实现无载体信息隐藏. 实验结果和分析表明,该隐藏方法在隐写容量、抗隐写分析、安全性方面均有良好表现.
关键词:信息隐藏;无载体信息隐藏;生成对抗网络;ACGAN (auxiliary classifier GAN)
信息隐藏是将秘密信息以不可见的方式隐藏在一个宿主信号中,并在需要的时候将秘密信息提取出来,以达到隐蔽通信和版权保护等目的[1] .
当前常用的图像信息隐藏方法主要包括空域信息隐藏和变换域信息隐藏. 空域隐藏方法如图像最低有效位(least significant bit,LSB)隐藏方法[2]、自适应LSB隐藏方法[3]、空域自适应隐写方法S-UNIWARD[4]、HUGO[5]、WOW[6]等;变换域方法如离散傅里叶变换(discrete Fourier transform,DFT)隐藏方法[7]、离散余弦变换(discrete cosine transform, DCT)隐藏方法[8]、离散小波变换(discrete wavelet transform,DWT)隐藏方法[9]等.
传统信息隐藏方法是通过修改载体来嵌入秘密信息,含密载体总会留有修改痕迹,导致含密载体难以从根本上抵抗基于统计的信息隐藏分析方法的检测. 为了从根本上抵抗各类隐写分析方法的检测,文献 [10] 提出了“无载体信息隐藏”这一全新的概念. 无载体信息隐藏与传统信息隐藏方法相比,不再将秘密信息嵌入到载体中,而是直接以秘密信息为驱动来“生成/获取”含密载体. 文献 [10] 使用了 bag-of-words (BOW)模型提取图像的视觉关键词(visual words,VW)来表达待隐藏信息,以此实现信息隐藏,该方法避免了对载体的修改,但是其需要大量的图像构建码本,存储开销大,且隐藏容量比较小.
文献 [11] 提出了构造式信息隐藏,当原始载体不预先指定时,按照一定规则由秘密信息直接生成含密载体,含密载体与正常内容相比应具有不可区分性. 其中半构造式信息隐藏需要事先给出载体构造的预设条件,再根据秘密信息和一定的构造规则生成含密载体. 含密载体需为特定类型,如基于LBP编码的纹理合成隐写[12],基于块排序的纹理合成隐写[13]等.
半构造式信息隐藏方法所用图像必须为特定图像,限制了其应用范围. 为此文献 [11] 设想了一种完全构造式的新型信息隐藏方法,即在不预先给定载体及不预设载体类型的情况下,以秘密数据为驱动,选取素材或对象直接构造含密载体. 完全构造式信息隐藏虽然不需要预设特定载体,但是其合成含密载体的对象库需要从大量的正常图像库中进行分割处理得到,因此效率较低.
在构造式信息隐藏与无载体信息隐藏基础上,针对半构造式信息隐藏需要预设特定载体、构造式信息隐藏需要大量对象库的问题,本文提出一种由秘密信息直接生成含密载体的无载体信息隐藏方法. 生成对抗网络(generative adversarial networks,GAN)[14]的特点是由噪声驱动来生成图像样本,当前已实现输入噪声后输出随机的伪自然图像,假如把噪声替换为秘密信息后仍能输出伪自然图像,就可实现以秘密信息为驱动来生成含密载体的无载体信息隐藏. 但在实验中很难实现以秘密信息替换噪声来驱动生成伪自然图像,于是可以采用ACGAN(auxiliary classifier GAN)[15]以类别标签和噪声作为驱动生成图像样本的方法,把秘密信息编码成对应的类别标签后,使指定的类别标签表示某种秘密信息,再与随机噪声联合作为驱动来生成伪自然图像,实现秘密信息的隐藏. GAN 生成的是随机的伪自然图像,而 ACGAN 通过控制类别标签的输入来生成指定类别的图像样本,因此根据生成的图像样本能够提取出输入的原始类别标签,实现秘密信息的提取,进而实现无载体信息隐藏.
本文基于 ACGAN 提出一种新的无载体信息隐藏方法,首先将待隐藏文本信息进行编码,然后以编码后的秘密信息和噪声作为驱动来生成含密图像样本,将其在公共网络上传输,接收方利用判别器和一系列函数转化器从含密图像中提取出相应的秘密信息,经过解码得到原始文本信息,从而实现无载体信息隐藏. 因为没有对图像作任何改变,所以能从根本上抵抗各类隐写分析方法的检测.
1 生成对抗网络与 ACGAN
1.1 生成对抗网络
GAN 来源于博弈论中的二人零和博弈[14],其结构如图 1 所示,由 1 个生成器和 1 个判别器组成. 任意可微分的函数都可以用来表示GAN的生成器(G)和判别器(D) [16] .
GAN 主要应用在无监督学习上,它能从输入数据动态的采样并生成新的样本. GAN 通过同时训练以下 2 个神经网络进行学习(设输入分别为真实数据 x 和随机变量 z):
1)生成模型(G):以噪声 z 的先验分布pnoise(z)作为输入,生成一个近似于真实数据分布pdata(x)的样本分布pG(z).
2)判别模型(D):判别目标是真实数据还是生成样本. 如果判别器的输入来自真实数据,标注为1;如果输入样本为G(z),标注为0.
GAN 的优化过程是一个极小极大博弈(Minimax game)问题,因此在 GAN 的训练过程中解决了以下优化问题:
1.2 ACGAN
ACGAN 是 GAN 的衍生模型,其结构如图 2 所示. 文献 [15] 提出在 GAN 的基础上把类别标签同时输入给生成器和判别器,由此不仅可以在生成图像样本时生成指定类别的图像,同时该类别标签也能帮助判别器扩展损失函数,提升整个对抗网络的性能.AC-GAN 的判别器中额外添加了一个辅助译码网络(auxiliary decoder network),用来计算相应的类别标签的概率,然后更改损失函数,增加正确预测类别的概率.
2 基于 ACGAN 的无载体信息隐藏
考虑到 ACGAN 的生成器能联合随机噪声 z 和类别标签 C 作为驱动,并由此生成指定类别图像样本,且类别标签 C 可为多个类别(C1, C2, C3, · · ·),同时判别器能输出生成图像的类别,结合无载体信息隐藏直接以秘密信息为驱动来生成含密载体的思想,提出一种基于 ACGAN 的无载体信息隐藏方法,将类别标签 C 替换为待隐藏文本信息 K,由 K 驱动生成含密图像,实现无载体信息隐藏.
本文提出的基于 ACGAN 的无载体信息隐藏方法如图 3 所示,主要有以下几部分组成:
1)码表字典,即汉字与类别标签的映射关系库
构建码表字典的作用是将待隐藏的文本信息转换为对应的类别标签序列,这样双方使用同样的码表字典就可以把文本信息与类别标签组合进行可逆变换.
2)信息隐藏和提取方法
在通信之前,发送方与接收方事先约定,采用相同的随机变量 z、相同的真实样本数据集 X、相同的类别标签 C 以及相同的训练步数训练 ACGAN,以得到相同的生成器与判别器,这些信息双方严格保密.
在隐藏时,首先对待隐藏文本信息根据码表字典存在的词或单字进行分词,再连续选取 m 个词或单字组成一组,得到文本信息片段. 然后根据码表字典将其编码成秘密信息片段,最后把秘密信息片段输入到训练好的ACGAN中,通过生成器生成含密图像进行传递.
在提取时,将接收到的含密图像输入到判别器中,输出秘密信息片段,对各秘密信息片段根据构建好的码表字典,通过查表将其译码成对应的文本信息片段,按照顺序连接所有的文本信息片段,得到接收到的含密图像中隐藏的文本信息.
2.1 码表字典的构建
就本文方法而言,考虑到计算的复杂度,所构建的码表字典首先要能涵盖全部的常用汉字(即国家一级字库中的 3 755 个汉字),此外还需要尽量涵盖国家二级汉字和一些常用词组及标点符号,以提高信息隐藏的容量. 基于 mnist 手写体数字集有 0 到 9 共 10 个类别标签,本文方法选定 10 000 个类别标签组合来构建码表字典,即每4个数字(每个数字都可从 10 个数字中选取)为一组,共 10 000 组,每组对应一个汉字单字或词组,构建一个如表1所示的常用汉字(或词组)与类别标签组合一一对应的码表字典. 在选择类别标签组合时,可由程序随机生成数字组合,以保证字典的随机性. 为增加破译难度,应当定期更换码表字典,以降低同一码表字典的使用频率.
2.2 隐藏方法
文本信息的隐藏和提取是信息隐藏方法的重点,在隐藏时,主要考虑如何将待隐藏的文本信息编码成相应的类别标签组合,联合类别标签与随机噪声作为驱动,通过控制类别标签的输入生成指定类别的伪自然图像,实现秘密信息的隐藏.
如图 4 所示,隐藏方案的具体步骤如下:
步骤 1 对需要隐藏的文本信息 T,根据码表字典存在的词或单字进行分词,每 m 个汉字或词组为一组,为使接收方在提取到文本信息片段后能正确地排列组合,以还原初始的文本信息T,在每组头部添加一个序号标记(为保证编码的一致性,序号标记也采用4位数字编码),将文本信息 T 分成 n 个文本信息片段,即T = {T1, T2, · · · , Tn}.
步骤 2 根据构建好的码表字典,通过查表,将每个文本信息片段编码成4(m + 1) 个对应的类别标签,构成一个新的秘密信息片段,记为 K.
步骤 3 将生成器中的类别标签 C 直接替换成秘密信息 K,把 K 输入到事先训练好的 ACGAN 中,调用生成器己训练好的权重值,生成器通过 K、z的联合输入,经过一系列反卷积、正则化等操作生成含密图像 G(K, z)进行传递.
2.3 提取方法
在提取时,接收方将接收到的含密图像输入到判别器后,ACGAN 的判别器只能输出图像的真伪和图像属于各个类别的似然对数,并不能直接输出秘密信息片段. 将图像类别的似然对数通过 softmax 函数转化为图像属于各个类别的概率,再通过 argmax 函数将图像类别的概率转化为类别标签,由此得到秘密信息片段. 再通过反向查表将秘密信息片段译码成相应的文本信息片段,按照序号标记依次连接所有文本信息片段,即得到含密图像中隐藏的文本信息. 如图 5 所示,提取方案的具体步骤为:
步骤 1 接收方接收到含密图像G(K, z)后,将G(K, z)输入到事先训练好的判别器中,经过卷积、正则化等操作,判别器输出图像的真伪和图像类别的似然对数 L.
步骤 2 使用 softmax 函数将图像类别的似然对数 L 转变成图像属于各类别的概率.
步骤 3 利用 argmax 函数输出概率最大的类别,提取出类别标签,得到秘密信息 K.
步骤 4 由于存在网络延时和其它有意或无意的攻击,接收方接收到的图像顺序可能会与发送方隐藏文本信息片段的图像顺序不同,因此首先提取出接收图像对应的秘密信息 K 头部的序号标记.
步骤 5 将秘密信息 K 按序号排序,根据构建好的码表字典,通过查表,依次将秘密信息 K 译码成对应的文本信息片段,按照顺序连接所有的文本信息片段,得到接收到的含密图像中隐藏的文本信息 T,从而实现无载体信息隐藏.
3 实验与分析
实验中,假设双方通信之前事先约定采用的 ACGAN 网络的训练如下:随机噪声 z 属于(–1,1)上的均匀分布,真实样本数据集为经典的手写体数字集mnist(共包含 60 000 张28×28pi 的手写体数字灰度图像),类别标签为mnist数据集中的数字标签 0 到 9,训练步数为 1 000 次. 实验平台为谷歌的深度学习平台 Tensorflow v0.12,计算显卡为 NVIDIA970.
以C2D-BN-LR(Conv2D→Batch Normalization→Leaky ReLU)定义 1 个卷积神经网络,ACGAN 中图像判别网络(判别器 D)的结构为:4 个C2D-BN-LR 层 →1 个全连接层(1 个神经元)→Sigmoid 函数(用来计算1个输出).
ACGAN 中图像生成网络(生成器G)的结构为:1 个全连接层(8 192 个神经元)→4个 C2D-BN-LR 的反卷积层 → tan(x) 函数层(计算正则化输出),生成的含密图像为每张子图像含有 64 个类别标签.
ACGAN 中的优化器采用基于动量的优化方法,学习率为 0.000 2,更新变量 β1 = 0.5, β2 = 0.999. 在每次训练中,先更新一次判别器 D 的权重,再更新两次生成器 G 的权重.
判别器提取到的类别标签中倒数第 2 个发生错误. 此时只需在编码时添加纠错码就可以保证译码的正确性. 由此也能看出,传统的信息隐藏都是对载体做修改,不改变需要隐藏的秘密信息,而在无载体信息隐藏中,允许秘密信息在隐蔽通信过程中存在误差,只需通过添加纠错码等方式保证译码的正确性即可. 而且因为不必对载体做任何修改,增加了信息隐藏的抗检测性.
如图 7 所示,在 ACGAN 训练 10 次后,生成的图像近乎于白噪声,人眼无法辨别数字类别,判别器提取到的类别标签也是完全混乱的. 而随着训练次数的增加,生成图像逐渐变得清晰可见. 经过 80 次训练后,虽然生成的图像人眼依然难以辨别数字类别,但判别器提取到的类别标签己基本正确,64 个类别标签中只有 3 个发生错误.
从第 100 次开始,判别器提取到的类别标签完全正确,但生成图像却难以有效辨识数字类别. 从第 240 次开始,生成的图像基本清晰可辨. 在第 610 次以后,生成图像与第 990 次训练的效果相差不大.
从上述实验结果可以看出,当待隐藏文本信息编码成 0 到 7 有序排列的数字标签时,可以按此排列生成指定类别的图像,且能正确提取出所选类别排列,也就可以依此解码出隐藏信息. 由此说明,当待隐藏文本信息编码成伪随机数字排列时,必然能够生成所需要的图像,也能正确提取出所编码的伪随机数字排列,进而解码成待隐藏文本信息,从而实现文本信息在无载体信息隐藏中的隐藏与提取.
鉴于 mnist 手写体数据集过于简单,当由其生成的图像变得清晰后,能被人眼直接识别出类别标签,下一步考虑将本文方法应用到 celeb A人脸数据集等复杂的自然图像集上来解决此问题. ——论文作者:刘明明, 张敏情, 刘 佳, 高培贤, 张英男
本文来源于:《应用科学学报》(双月刊)创刊于1983年,是由上海市教育委员会主管、上海大学和中科院上海技术物理研究所主办的综合性学术类期刊。主要刊登创造性科研成果,优先刊登前沿科学与技术领域中探索研究的新成果。除特约稿外,一般不刊登综合性和动态性文章。内容侧重于应用数学、应用物理、应用化学、信息科学、材料科学、无线电电子学、计算机科学和精密机械等方面。
文章名称:基于生成对抗网络的无载体信息隐藏