柳传志,手机QQ浏览器 个性化引荐体系从0到1,误入歧途

1、布景

在互联柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途网信息爆破式增加的当今,经过传统人工挑选运营办法供给效劳年代已然曩昔,能经过用户前史行为精准举荐用户感爱好内容成为必然趋势,干流个性化举荐系统流程包含用户行为搜集、分类提取、离线用户建模、在线用户模型猜测等。结合现在手机QQ浏览器软件应用App分发事务开展需conflict求,历时半年多时刻,从无到有芙丽芳丝建立一套个性化举荐系统支撑专区App分发事务。

2、事务全体Review

现在举荐场景掩盖包含专区主页猜你喜爱模块举荐,打底举荐与QB内笔直查找,对应作用如下图红框标识:

进过半年的优化打磨,要害阶段作用提高汇总如下:

3、全体结构

在输出全体架构图前,先窗外回归开始产品个性化举荐需求,技能计划选型终究都要效劳于需求

【个性化举荐需求】

依据活泼用户的长时间爱好举荐用户最感爱好的decadeAppList,作用点评方针是举荐App的CTR

【技能计划选型】

工程Part

在线模块:分粗排阶段和精排阶段

1、粗排阶段依据用户长时间爱好画像召回相关度较高的Item,一起减轻精排阶段压力;

2、精排阶段则依据粗排召回的ItemList,经过离线练习好的排序模型猜测CTR,终究下发TopN ItemList作为举荐成果;

离线模块:

1、用户长时间爱好:担任在线粗排召回,经过离线累计用户消费行为,映射成爱好系统,终究堆集成用户长时间爱好画像,终究将画像导入在线系统;

2、排序模型:担任在线精排阶段排序模型的练习,练习阶段需求用户消费日志,一起搜集用户特征和Item特征,终究整组成练习样本集,经过Spark等散布式核算结构练习模型并导入在线系统;

算法Part

粗排召回:粗排的召回作用直接影响举荐的作用,不过项目初期的计划不太合适拟定太杂乱的战略,初期咱们先敲定一个热度核算公式对备选Item进行全排序:HOT(x) = LOG(下载量(x)) + 评分(x) * 0.2,终究依据Item分类构建待召回反向索引结构

精排模型:产品拟定举荐作用点评方针是App按天CTR,即排序模型是pCTR模型,结合业界老练计划以及团队技能堆集预备度,选用LR作为pCTR模型

【全体架构图】

1、将用户在专区预举荐位的Item曝光和点击行为上签到离线集群

2、用户实时拉取举荐成果,粗排备选池会预先Ready(对应架构图中的备选优化,战略参阅上面算法Part的粗排召回),经过用户相关前史爱好画像,依据画像获取相关度Top的ItemList,一起进行列表退避;然后用召回ItemList相关柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途Item特征,用户相关用户特征洪善花,部分特征需求走特征工程处理,加载离线练习好的LR模型,猜测每一个Item的pCTR闰年怎样算,进行排序;产品战略会在统筹用户体会维度对下发列表进行干涉洛索洛芬钠片,比方多样性,游戏App占比等;终究下发排序成果列表

3&4、将用柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途户交互行为与举荐成果等数据导入离线核算集群:1)依据按天用户行为核算按天爱好画像,一起和前史画像进行兼并构成用户爱好长时间画像;2)用用户对Item点击或曝光作为样来源,与Item特征、用户特征柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途相关构成练习样本集,经过Spark API练习得到安稳的LR模型

5、按天将用户累计长时间爱好画像和LR模型成果导出到HDFS途径

6、用户爱好画像守时刷入在线Cache

7、将LR模型按天导入在线DB,在线效劳守时加载LR模型以及查询用户长时间爱好画像

4、优化小结

将个性化举荐系统Pipeline建立上线后,目光就转移到举荐作用的优化,优化首要分三部分:

1)LR模型特征优化,首要曹祖瑜包含常用特征工程办法以及引进新的事务特征;

2)LR练习东西Spark API练习功能提高加学习率曲线制作;

3)粗排召回阶段引进依据Item的协同过滤;

【特征优化】

1、特征工程

在当前项目中,咱们首要选用的特征工程计划包含:

离散枚举:性别(男性1,女人2,不知道3),单维特征扩展成三维,一条样本仅设置一维

接连等距:比方用户年纪,可调查在如下样本中用户年纪的散布图(x坐标表明年纪,y坐标表明对应用户群累计占比),14-46岁距离用户群散布均匀(且为相对有用年纪),且占整灌篮高手主题曲体用户群99%以上,这类特征可以对样本进行等值切分,距离可依据模型作用调整

归一化LOG:比方App下载量,如下是样本中App对应的下载量散布图(x坐标表明下载量,y坐标表南宁园博园示对应用户群累计占比),比照年纪散布图,App群50%占比以上比较均匀,可是前50%罗斯威尔事情跨度较大,此刻咱们运用的计划是对全体下载量求LOG,然后再进行等值One-Hot

2、引进新特征

项目初期运用的特征包含如下脑图中的蓝色与绿色特征,练习的样本量是按周,采样的正负份额是1:5,终究的AUC是0.6890;

在专心特征优化阶段,首要的方向是引进更多的特征,经过整理,将脑图中的标黄和标灰特征归入到引进阶段。在详细引进优先级的排期中,需求权衡特征搜集的杂乱度、特征的掩盖度等要素,终究在优化阶段确认引进脑图中的标黄特征,成果AUC提高到0.7592

【Spark API 练习优化】

详见文章Spark MLlib LR 实战笔记

【协同过滤】

分类粗排召回战略的优势是对主打用户长时间爱好方向定向,缺陷是很难引进Item相关度较高但并非同类的Itenutm,也便是较难发现用户隐含爱好;协同过滤的方针便是对柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途分类粗排召回战略缺陷的一种弥补宝马m2。

常用的协同过滤Based-Memory包含User-Based与Item-Based,西门烤翅对标两种模型有如下比照:

经过调研暗恋现在项目的举荐场景优选Item-Based,接入流程上,回到全体架构图,选用离线练习Item-Item类似度矩阵并离线依据用户前史装置App进行猜测,终究刷入在线Cache,供在线效劳在召回流程查询协同过滤举荐成果,从而一致精排下发

5、项目展望

1、LR模型引进更多新特征 以及 特征工程更多的测验,可参阅参阅文献5

2、pCTR猜测模型测验GBDT + LR

3、A柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途pp分类互斥战略

感谢都市淫乱过程中Carbonzhang 唐慧女儿案& Meifangli 的大力支持

参阅文献

1《practical lessons from快递法规与规范 predicting clicks on ads at facebook》https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf

2《Spark MLlib 机器学习算法、源码及实战详解》柳传志,手机QQ浏览器 个性化举荐系统从0到1,误入歧途

3《Spark 技能内情》

4《机器学习实战》

5 特征工程 http://km.oa.com/group/22605/articles刑宇菲/show/295781