一个人可做几次网站备案wordpress使用视频教程
- 作者: 五速梦信息网
- 时间: 2026年04月20日 07:01
当前位置: 首页 > news >正文
一个人可做几次网站备案,wordpress使用视频教程,杭州富阳区网站建设公司,seo网站推广简历在前面的文章中#xff0c;已经介绍了很多关于推荐系统中CTR预估的相关技术#xff0c;今天这篇文章也是延续这个主题。但不同的#xff0c;重点是关于用户行为序列建模#xff0c;阿里出品。 概要 论文#xff1a;Deep Interest Network for Click-Through Rate Predict…在前面的文章中已经介绍了很多关于推荐系统中CTR预估的相关技术今天这篇文章也是延续这个主题。但不同的重点是关于用户行为序列建模阿里出品。 概要 论文Deep Interest Network for Click-Through Rate Prediction 链接https://arxiv.org/pdf/1706.06978.pdf 这篇论文是阿里2017年发表在KDD上提出了一种新的CTR建模方法Deep Interest Network (DIN)它最大的创新点是引入了局部激活单元local activation unit其实是一种Attention机制对于不同的候选item可以根据用户的历史行为序列动态地学习用户的兴趣表征向量。 在此之前在DNN中对于用户历史行为序列的处理方法一般都是poolingsum pooling或者mean pooling等即等同对待历史序列中的所有行为无关于当前的候选item如下图所示 但用户当前的兴趣或者说当前对某个特定的item是否感兴趣实际上应该只与某些行为是相关的。如下图所示用户对Candidate的大衣是否感兴趣其实主要跟用户看过的衣服类型比较有关联而跟其它如包包和鞋子则基本不相关。 联想到FMs中因为存在候选item和历史行为item的交叉特征也是有类似的思想存在但实际推荐系统工程中很难实现所有item的交叉计算 DIN的整体网络结构其实与Base Model是差不多的唯一的区别就是在User Behaviors建模上如下图 Base Model Feature Reresentation. 首先离散特征会进行one-hot或者multi-hot编码 x [ t 1 T , t 2 T , … , t M T ] T , t i ∈ R K i x[t^T_1,t^T_2,…,t^T_M]^T,\ t_i \in R^{K_i} x[t1T,t2T,…,tMT]T, ti∈RKi K i K_i Ki 是第i个field的unique feature数量 t i [ j ] ∈ { 0 , 1 } ti[j] \in {0,1} ti[j]∈{0,1}是一个0-1向量 ∑ j 1 K i t i [ j ] k \sum{j1}^{K_i}t_i[j]k ∑j1Kiti[j]k当k1时 t i t_i ti是one-hot编码k1则是multi-hot编码。 Embedding layer. 对于第i个field的特征 t i t_i ti有着对应的embedding字典 W i [ w 1 i , w 2 i , … , w K i i ] ∈ R D × K i W^i[w^i_1,w^i2,…,w^i{K_i}] \in \mathbb{R}^{D \times K_i} Wi[w1i,w2i,…,wKii]∈RD×Ki。而 w j i ∈ R D w^i_j \in R^D wji∈RD则是维度为D的embedding向量。 Embedding操作其实是一种表检索机制具体如下 如果 t i t_i ti是one-hot向量并且第j个元素 t i [ j ] 1 t_i[j]1 ti[j]1那么 t i t_i ti的embedding表征则为 e i w j i e_iw^i_j eiwji如果 t i t_i ti是multi-hot向量并且 t i [ j ] 1 , j ∈ { i 1 , i 2 , … , i k } t_i[j]1,\ j\in{i_1,i_2,…,i_k} ti[j]1, j∈{i1,i2,…,ik}那么 t i ti ti的embedding表征则是一个embedding向量列表 { e i 1 , e i 2 , … , e i k } { w i 1 i , w i 2 i , … , w i k i } {e{i1},e{i2},…,e{ik}}{w^i{i1},w^i{i2},…,w^i{i_k}} {ei1,ei2,…,eik}{wi1i,wi2i,…,wiki} Pooling layer and Concat layer. 像这种multi-hot向量特征其实就非常符合用户的行为序列特点序列即代表存在多个行为如点击了多个商品并且每一个不同的用户的行为序列长度也不同。一般的处理方法则是通过pooling layer将embedding向量列表转换为固定长度的向量因为MLP只能处理固定长度的输入 e i p o o l i n g ( e i 1 , e i 2 , … , e i k ) eipooling(e{i1},e{i2},…,e{i_k}) eipooling(ei1,ei2,…,eik) 而最常用的pooling layer则是sum pooling和average pooling即将列表中的所有向量进行element-wise的相加或者均值操作。 接着再将所有处理过的表征向量进行拼接得到的最终的表征向量输入。 MLPLoss. MLP仍然是常规的全连接网络层为了自动学习特征组合如PNN、WideDeep和DeepFM。 Base Model的目标函数使用negative log-likehood p ( x ) p(x) p(x)是最终网络softmax layer之后的输出代表样本x是否被点击的概率。 Deep Interest Network 一开始提到了用户行为序列pooling的缺点在于同等地对待序列中所有行为的item并且对于任何候选item同一个用户的行为序列计算的兴趣表征向量是同样不变的。另外论文还指出固定的有限制的维度的表征向量成为了表征用户多样的兴趣的瓶颈但向量的维度扩展又严重增加了学习参数的规模和存储负担这在实时推荐系统中是难以接受的并且在有限的训练样本下也容易导致过拟合。 在这种动机下提出了能够考虑历史行为序列和候选集的相关性来自适应计算用户的兴趣表征向量的模型DIN。通过解刨用户的点击行为动机发现与展示的item相关的历史行为极大地贡献了点击。 给定一个候选itemDIN将attention给到局部活跃的历史行为的表征来实现这种兴趣表征自适应计算。具体做法是引入了一种局部激活单元应用在用户的行为序列特征上数学上则是一种加权sum pooling来得到在候选item A A A 下用户的兴趣表征 v U v_U vU如下式 { e 1 , e 2 , … , e H } {e_1,e_2,…,e_H} {e1,e2,…,eH} 是用户历史行为的embedding向量列表长度为H v A v_A vA则为候选item的embedding向量。 a ( ⋅ ) a(\cdot) a(⋅) 是一种前馈网络其输出便作为激活权重。如下图两个embedding向量的激活权重计算是原向量拼接它们的out product作为输入喂给后续的网络输出一个标量权重。这是一种显式的知识能够帮助相关性建模。 从公式明显看出对于不同的候选item v U v_U vU的计算结果是不同的。 Mini-batch Aware Regularization 过拟合是深度网络训练中一个关键的挑战比如加入一些细粒度的特征比如商品ID模型的效果会在第一个epoch之后迅速地下降。 通常的做法是加入L1或者L2正则惩罚。在没有加入正则惩罚的情况下每一个batch中只有那些出现过即不为0的离散特征的参数需要更新但L2正则惩罚却会计算整个参数的L2-norm这会造成极其沉重的计算。 因此论文提出Mini-batch Aware Regularization只计算在每个batch出现过的离散特征的参数的L2-norm并且ID类即离散特征的embedding矩阵贡献了CTR网络的绝大部分参数只在ID类特征参数上应用。 记 W ∈ R D × K W \in \mathbb{R}^{D\times K} W∈RD×K 为embedding矩阵embedding向量维度为D离散特征的空间维度即离散特征的unique id数量。在 W W W 上扩展 l 2 l_2 l2 正则如下式 w j ∈ R D w_j \in \mathbb{R}^D wj∈RD 是第j个embedding向量 I ( x j ≠ 0 ) I(x_j \neq 0) I(xj0) 表示实例x的feature id是 j j j n j n_j nj 则表示feature id j j j 在所有样本出现的次数。 上式可以简化为下式 B是mini-batches的批次数量 B m \mathcal{B}m Bm 则是第m个批次。 α m j m a x ( x , y ) ∈ B m I ( x j ≠ 0 ) \alpha{mj}max_{(x,y)\in \mathcal{B}_m} I(x_j \neq 0) αmjmax(x,y)∈BmI(xj0)表示第m个批次 B m \mathcal{B}_m Bm 至少有一个实例存在feature id j j j那么上式又可以近似等于下式 最后加入mini-batch aware regularization的embedding参数的梯度下降如下式 自适应的激活函数 PReLU是ReLU之后最经常被使用的激活函数其公式如下式 PReLU优化了ReLU在输入s小于0的场景但仍然存在hard rectified(矫正) point即当输入s0时这可能会让每一个网络层的输入变成不同的分布。 基于这种考虑论文提出了一种数据自适应的激活函数Dice如下式 看到这个公式很容易就联想到batch normalization这两者的计算存在很多相似之处。Dice在训练阶段 E [ s ] E[s] E[s]和 V a r [ s ] Var[s] Var[s]是每一个批次的输入的均值和方差而在推理阶段 E [ s ] E[s] E[s]和 V a r [ s ] Var[s] Var[s]则是所有训练批次数据的移动均值版本与bn是一样的方式。 ϵ \epsilon ϵ是一个平滑常量避免出现分母为0的情况。 Dice可以看成是PReLU的泛化版本其关键idea是根据数据去自适应调节rectified point。 当 E [ s ] 0 a n d V a r [ s ] 0 E[s]0\ and\ Var[s]0 E[s]0 and Var[s]0 时Dice则退化为PReLU两者的对比如下图 实验结果 指标 论文衡量模型效果使用的指标是用户加权的AUC为了简化还是以AUC表示如下式 n是用户的数量# i m p r e s s i o n i impression_i impressioni和 A U C i AUC_i AUCi是第i个用户的曝光量和AUC。 另外还加入了相比Base Model的相对提升指标如下式 代码实现 git 推荐系统CTR建模系列文章 CTR特征重要性建模FiBiNetFiBiNet模型 CTR预估之FMs系列模型:FM/FFM/FwFM/FEFM CTR预估之DNN系列模型:FNN/PNN/DeepCrossing CTR预估之WideDeep系列模型:DeepFM/DCN CTR预估之WideDeep系列(下):NFM/xDeepFM CTR特征建模ContextNet MaskNet(Twitter在用的排序模型)
- 上一篇: 一个人建网站ui设计实训报告
- 下一篇: 一个商务宣传怎么做网站合适哪家企业网站建设好
相关文章
-
一个人建网站ui设计实训报告
一个人建网站ui设计实训报告
- 技术栈
- 2026年04月20日
-
一个企业网站多少钱潍坊seo教程
一个企业网站多少钱潍坊seo教程
- 技术栈
- 2026年04月20日
-
一个企业可以做多个网站吗建设河南网站
一个企业可以做多个网站吗建设河南网站
- 技术栈
- 2026年04月20日
-
一个商务宣传怎么做网站合适哪家企业网站建设好
一个商务宣传怎么做网站合适哪家企业网站建设好
- 技术栈
- 2026年04月20日
-
一个网站 多个域名宁夏 网站开发
一个网站 多个域名宁夏 网站开发
- 技术栈
- 2026年04月20日
-
一个网站的建设需要什么手续网络工程师是青春饭吗
一个网站的建设需要什么手续网络工程师是青春饭吗
- 技术栈
- 2026年04月20日
