共性化在CTR预估中的经典方法和成果对比一文总结特色增强&amp

2024-11-15

在CTR预估中，干流都驳回特色embedding+MLP的模式，其中特色十分关键。但是关于相反的特色，在不同的样本中，表征是相反的，这种模式输入到下游模型，会限度模型的表白才干。

为了处置这个疑问，CTR预估畛域提出了一系列关系上班，被称为特色增强模块。特色增强模块依据不同的样本，对embedding层的输入结果启动一次性改过，以顺应不雷同本的特色示意，优化模型的表白才干。

最近，复旦大学和微软亚研院联结颁布了一篇特色增强上班的总结，对比了不同特色增强模块成功方法的成果。上方给大家引见一下几种特色增强模块的成功方法，以及本文启动的关系对比试验。

论文题目 ：A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction

下载地址 ：

特色增强建模思绪

特色增强模块，旨在优化CTR预估模型中Embedding层的表白才干，成功相反特色在不雷同本下的表征差异化。特色增强模块可以用上方这个一致公式表白，输入原始的Embedding，经过一个函数后，生成这个样本共性化的Embedding。

这类方法的大抵思绪为，在获取初始的每个特色的embedding后，经常使用样本自身的表征，对特色embedding做一个变换，获取样本的共性化embedding。上方给大家引见一些经典的特色增强模块建模方法。

特色增强经典方法

An Input-aware Factorization Machine for Sparse Prediction（IJCAI 2019） 这篇文章在embedding层之后参与了一个reweight层，将样本初始embedding输入到一个MLP中获取一个表征样本的向量，经常使用softmax启动归一化。Softmax后的每个元素对应一个特色，代表这个特色的关键水平，经常使用这个softmax结果和每个对应特色的初始embedding相乘，成功样本粒度的特色embedding加权。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction（RecSys 2019） 也是相似的思绪，为每个样本学习一个特色的共性化权重。整个环节分为squeeze、extraction、reweight三个步骤。在squeeze中，将每个特色embedding经过pooling获取一个其对应的统计标量。在extraction中，将这些标量输入到MLP中，获取每个特色的权重。最后，经常使用这个权重和每个特色embedding向量相乘，获取加权后的embedding结果，相当于在样本粒度做一个特色关键性挑选。

A Dual Input-aware Factorization Machine for CTR Prediction（IJCAI 2020） 和文章相似，也是应用self-attention对特色启动一层增强。全体分为vector-wise和bit-wise两个模块。Vector-wise将每个特色的embedding当成序列中的一个元素，输入到Transformer中获取融合后的特色示意；bit-wise局部经常使用多层MLP对原始特色启动映射。两局部的输入结果相加后，获取每个特色元素的权重，乘到对应的原始特色的每一位上，获取增强后的特色。

GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction（2020） 应用每个特色的初始embedding过一个MLP和sigmoid函数生成其独立的特色权重分，同时也经常使用MLP对一切特色启动映射生成bit-wise的权重分，两者融合对输入特色启动加权。除了特色层外，在MLP的隐层，也应用相似的方法，对每个隐层的输入启动加权。

Interpretable Click-Through Rate Prediction through Hierarchical Attention（WSDM 2020） 也是应用self-attention成功特色的转换，但是参与了高阶特色的生成。这外面经常使用档次self-attention，每一层的self-attention以上一层sefl-attention的输入作为输入，每一层参与了一阶高阶特色组合，成功档次多阶特色提取。详细来说，每一层启动self-attention后，将生成的新特色矩阵经过softmax获取每个特色的权重，依据权重对原始特色加权新的特色，再和原始特色启动一次性点积，成功参与一阶的特色交叉。

ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding（2021） 也是相似的做法，经常使用一个MLP将一切特色映射成一个每个特色embedding尺寸的维度，对原始特色做一个缩放，文中针对每个特色经常使用了共性化的MLP参数。经过这种模式，应用样本中的其余特色作为高低位增强每个特色。

Enhancing CTR Prediction with Context-Aware Feature Representation Learning（SIGIR 2022） 驳回了self-attention启动特色增强，关于一组输入特色，每个特色关于其余特色的影响水平是不同的，经过self-attention，对每个特色的embedding启动一次性self-attention，成功样本内特色间的消息交互。除了特色间的交互，文中也应用MLP启动bit级别的消息交互。上述生成的新embedding，会经过一个gate网络，和原始的embedding启动融合，获取最终refine后的特色示意。

试验成果

文中启动了各类特色增强方法的成果对比，全体论断为，在泛滥特色增强模块中，GFRL、FRNet-V、FRNetB 体现的最好，并且成果要优于其余的特色增强方法。

本文转载自，作者：

<<更快 V2 更强的端侧视觉言语模型端侧实时运转浙大等提出MobileVLM 3B媲美7B！美团

普林斯顿大学提出首个基于MoE的稠密时序预测大模型参数量裁减到2.4billion>>

共性化在CTR预估中的经典方法和成果对比 一文总结特色增强&amp

特色增强建模思绪

特色增强经典方法

试验成果

您可能还会对下面的文章感兴趣：

随便看看

共性化在CTR预估中的经典方法和成果对比一文总结特色增强&amp