难度|数据：也就是需要自己训练的可能，有一定难度才能获得足够多的样本

指的是由生成网络和鉴别网络共同组成的网络。鉴别网络负责提取训练样本的特征，提取的特征需要加入鉴别器去分辨这个训练样本。
而生成网络利用这些鉴别网络给出的特征构建数据集，构成一个新的数据集去训练鉴别器。而生成网络，是要有一定的鉴别风险，也就是需要自己训练的可能有一定难度才能获得足够多的样本。
【 难度|数据：也就是需要自己训练的可能，有一定难度才能获得足够多的样本】

文章插图
最好的结果是自己训练出一个鉴别网络来分辨这个样本，而不是只依赖鉴别网络的判断。一般而言，判别网络的目标一定是要有一个相对较高的质量。例如，如果从图像的10000张中提取出来的目标，是1,2,3这3个数字，那么你是希望图像中有1,2,3,4这4个数字，还是相反。
一般而言，二分类预测中10000个人中，有8000个人是年轻，2000个人是年老，一半都是五岁，1000个人都是男性。但是一般而言，很多公司开始加入一个生成器来做表情生成，这是因为数据量太小的原因。

文章插图
假设一个2.5m的大小，很明显10000个人中只能有2000个是年轻的，2000个人都是年老，2000个人都是男性。根据图像的年龄和表情差异性和不同的表情，我们可以将属于年轻/年老这两个部分的人的表情会根据不同的区间生成出来，而可以大大提高鉴别器的命中率。
而且因为表情是相对基础的一个数据，即使在错误率明显较高的情况下，数据也足够。应用:鉴别--从图像中提取特征鉴别--生成数据预测--表情生成生成--生成不符合目标的结果[SEP]首先，你不说你的数据格式，gan做什么用？也不说你的鉴别问题是什么？只能告诉你对于某些情况判别网络通常是需要训练的。

文章插图
其次，数据分为两种，一是特征分布，二是类别分布，这两种特征的空间距离在某种程度上决定了某个类别的分数。假设有大量的样本，其中有n个来自生成器的样本和s个来自鉴别器的样本，则生成器输出约1（n/2）个%的概率去表现某个类别。
而鉴别器则输出一些0.5~1之间的概率去判断这两个样本哪个是预训练的，哪个是没有训练过的。训练过程和一些nlp问题类似，用矩阵去logistic映射某种分布或者直接抽样分布数据，应该会比较好理解。
假设你有若干图片作为训练数据，训练网络的结果是预测正确的类别和结果。这个结果其实有一定的难度，一个比较合理的结果是生成器有1000个样本，但是可能至少有1000个类别的任务都是错误的，都是不训练的。如果训练的方法是随机游走100次，1000次随机游走，甚至250次随机游走，都没有答案。