便捷战略处置CTR模型训练一轮过拟合疑问
当天这篇文章给大家引见一下介绍系统中预估模型的one-epoch疑问,以及相应的解法。关键起源于两项上班,一个是由阿里宣布的论文Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models(2022)中提出的one-epoch疑问这一现象,另一是由快手宣布的论文Multi-Epoch learning with>1.One-epoch现象
工业界的CTR预估模型存在一种one-epoch现象,即模型只能训练一轮,超越一轮就会发生过拟合现象,造成预测成果大幅降低。在Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models(2022)中第一次性将这个现象整顿成论文宣布进去,惹起了工业界介绍系统畛域的关注。
下图是该文启动的试验,经过观察模型训练环节测试集上的auc可以发现,模型在第一轮训练完结到达最优成果,第二轮开局成果马上猛烈上涨。文中在多个数据集上启动了试验,都是相相似的现象。
文中为了验证one-epoch现象发生的要素,从模型参数量、激活函数类型、优化算法等多个维度启动对比试验剖析。最终,验证了one-epoch现象发生的要素关键是特色稠密性造成的。特色稠密性指的是,某个特色的id数量很多,造成每个id对应的数据量比拟少。文中经过减小特色稠密性来做对比试验,发现特色稠密性是造成one-epoch现象的关键要素。经过对稠密id交流成自动值、减小hash表(造成一些id映射到同一个embedding)等模式,减小数据集的特色稠密疑问,对比训练环节中的测试集auc。如下图,当数据中特色稠密性疑问减小时,one-epoch现象逐渐隐没了。
2.One-epoch处置方法
为了打破该疑问,本文提出一个假定:这种ID特色稠密性形成过拟合更进一步的要素,是Embedding经过一轮的训练,其参数蕴含的消息和数据集太凑近了。假设能让Embedding表征和数据集散布差异拉大,就能缓解这个疑问。因此,文中提出了一种便捷的战略:每轮训练时,都将Embedding随机初始化一次性。详细的算法如下表:
这个做法中,一个不懂是Embedding每轮都随机初始化,那MLP网络不是白训练了吗?文中经过试验验证标明,MLP参数是可以很快顺应新的Embedding参数的,即使每轮训练时Embedding变动很大,也不会影响MLP的才干。这里将Embedding和MLP的相关,了解为Embedding是输入数据,MLP网络是模型,每次从新随机初始化Embedding再训练,相当于是在做数据增强,进而优化MLP网络的泛化性。
上述方法实用于非延续训练的状况,即单个数据集训练多轮。文中也对多个数据集延续训练的场景,设计了相似的Embedding初始化战略,其外围都是用某种模式削弱Embedding参数和数据集的相关性。
3.试验成果
对比普通的多轮训练,和本文提出的随机初始化Embedding训练方法,可以看出,多轮训练的test auc在第二轮很快过拟合,而引入本文的训练模式,随着训练轮数的参与,test auc会逐渐优化,验证了本文提出方法的有效性。
从train和test的auc和loss来看,普通的多轮训练在train auc和loss上会有成果优化,标明了过拟合疑问,而引入本文方法后过拟合现象显著缓解。
本文转载自,作者: