• banner1
  • banner2
  • banner3
当前位置:主页 > 产品案例 >

互联网广告CTR预估新算法:基于神经网络的DeepFM原理解读

来源:http://shanghaitoyexpo.com 责任编辑:ag88环亚国际 更新日期:2018-11-16 21:26

  CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。

  CTR预估重点在于学习组合特征。注意,组合特征包括二阶、三阶甚至更高阶的,阶数越高越复杂,越不容易学习。

  Google的论文研究得出结论:高阶和低阶的组合特征都非常重要,同时学习到这两种组合特征的性能要比只考虑其中一种的性能要好。

  那么关键问题转化成:如何高效的提取这些组合特征。一种办法就是引入领域知识人工进行特征工程。这样做的弊端是高阶组合特征非常难提取,会耗费极大的人力。而且,有些组合特征是隐藏在数据中的,即使是专家也不一定能提取出来,比如著名的“尿布与啤酒”问题。

  最开始CTR或者是推荐系统领域,一些线性模型取得了不错的效果。比如:LR,FTRL。

  线性模型有个致命的缺点:无法提取高阶的组合特征。所以常用的做法是人为的加入pairwise feature interactions。

  即使是这样:对于那些出现很少或者没有出现的组合特征以及高阶组合特征依旧无法提取。

  LR最大的缺点就是无法组合特征,依赖于人工的特征组合,这也直接使得它表达能力受限,基本上只能处理线性可分或近似线. FM模型

  线性模型差强人意,直接导致了FM模型应运而生(在Kaggle上打比赛提出来的,取得了第一名的成绩)。

  随着DNN在图像、语音、NLP等领域取得突破,人们见见意识到DNN在特征表示上的天然优势,相继提出了使用CNN或RNN来做CTR预估的模型。

  FM部分的输出由两部分组成:一个Addition Unit,多个内积单元。

  这里的d是输入one-hot之后的维度,我们一般称之为feature_

  size。对应的是one-hot之前的特征维度,我们称之为field_

  Addition Unit反映的是1阶的特征。内积单元反映的是2阶的组合特征对于预测结果的影响。

  g_size这里分别展开解释下维度的两部分是怎么来的,对于理解模型还是很重要的:

  这里 是把X和W每一个位置对应相乘相加。2017��6�µ�2���Ĵ������⣺���������δֹ�� ����,由于X是one-hot之后的,所以相当于是进行了一次Embedding!X在W上进行一次嵌入,或者说是一次选择,选择的是W的行,按照X中不为0的那些特征对应的index,选择W中row=index的行。

  对于每一个Field都执行这样的操作,就选出来了X_i Embedding之后的表示。注意到,每个Field都肯定会选出且仅选出W中的某一行(想想为什么?),因为W的列数是固定的,每一个Field都选出s作为对应的新特征。

  所以:FM模块图中,黑线部分是一个全连接!W就是里面的权重。把输入X和W相乘就得到了输出。至于Addition Unit,我们就不纠结了,这里并没有做什么加法,就把他当成是反应1阶特征对输出的影响就行了。

  这里最后的结果中是在[1,K]上的一个求和。 K就是W的列数,就是Embedding后的维度,也就是embedding_size。也就是说,利来国际w66.com何洁深夜发长微博承认婚内恋情张馨予声援“你,在DeepFM的FM模块中,最后没有对结果从[1,K]进行求和。而是把这K个数拼接起来形成了一个K维度的向量。

  Deep Component是用来学习高阶组合特征的。网络里面黑色的线是全连接层,参数需要神经网络去学习。

  尽管输入的长度不同,但是映射后长度都是相同的.embedding_size 或 k

  值得注意的是:FM模块和Deep模块是共享feature embedding的(也就是V)。

  没有用FM去预训练隐向量V,并用V去初始化神经网络。(相比之下FNN就需要预训练FM来初始化DNN)

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

Copyright © 2013 ag88环亚国际ag88环亚国际娱乐平台环亚娱乐ag88手机版 All Rights Reserved 网站地图