当前位置:首页 > 公众号精选 > 架构师社区
[导读]由于移动互联网时代用户每时每刻都会产生海量信息,伴随着大数据技术的快速发展,使得企业能够迎合用户的痛点,分析用户喜好,进行商品推荐。

 


分享嘉宾:姚凯飞 观变科技 CEO

编辑整理:陈家辉

出品平台:DataFunTalk


导读:由于移动互联网时代用户每时每刻都会产生海量信息,伴随着大数据技术的快速发展,使得企业能够迎合用户的痛点,分析用户喜好,进行商品推荐。推荐系统诞生的益处:从用户角度,推荐系统可以缓解信息过载带来的时间成本;从企业角度,可以帮助企业进行精准营销,解决长尾营销,最大化收益。因此推荐系统的好坏对于互联网企业来说至关重要。

本次分享主要是以电商平台为例,从以下几个方面对推荐系统进行解构:

01

推荐概述

1. 工作思路

对于电商平台来讲,一套完整的电商流程应该包含以下完整流程:

推荐系统作为电商平台的一个子系统,其价值体现在商品与用户的匹配上,而匹配的效率与质量对于电商平台至关重要。

2. 推荐系统面临的挑战

多场景、多目标、考虑生态、场景间目标的差异

电商推荐系统的优化往往是多目标的,这个体现在场景和优化时效维度;在不同场景间, 推荐系统的目标侧重点也是不一样的,比如有的目标是提高用户在页面的停留时间,有的是提高用户短时间内的消费,比如猜你喜欢、购物车、商品详情页的推荐坑位。而从优化的时效维度来看,比如从短期来讲,目标有点击率、转化率和客单价等,从长期来讲,目标需要考虑留存、复购等指标。不仅如此,电商平台需要兼顾用户、商家、平台三者的利益,构建长期健康的生态。由于电商业务的购物链路较长,往往用户需要先浏览、点击、加购、下单、支付、履约配送、收货、评价/退货等环节构成,所以推荐系统往往需要将各个环节纳入其中。当然在其它业务类型的推荐系统中,也存在着链路长的挑战。如招聘行业的推荐系统,给候选人推荐合适工作只是第一步,后面还会伴随着长时间的简历投递,招聘人员的审核和邀请,参加面试,最终入职或者进行下一家的应聘。社交场景也类似,这种推荐系统存在这双向匹配,比电商平台的单项匹配链路更长,挑战也更大。

数据闭环

对于电商企业来说,数据是核心,是驱动业务迭代的关键点,从用户、商品、商家维度,需要持续积累和采集。从用户的角度,存在浏览、点击、成交、评价、物流全链路闭环数据。从商品角度,有潜力、新品、老品、衰落、下架等信息。从商家角度,也有价值、非价值和灰黑商家等。

3. 推荐系统中的关键因素建模

我们以电商推荐场景为例,用户的行为旅程包括浏览、点击、加购、购买以及长期的复购行为,大致可以由下图表示:

推荐系统首先需要在点击(也即流量的转化)这一环节进行建模,引导用户进入商品详情页,同时对详情页的加购/购买建模,依次引导后续行为。

另一个角度,从上面PPT下半部分的公式出发,产品运营可以被结构为以上三个模块,流量、转化、x因素(回访、复购)等;长期来讲, X因素非常关键,即复购回访的长期价值,只有长期生命周期价值高才能给企业带来持久收益(n为时间/天,x的少许增长可以带来长期巨大复利)。

结合上述用户旅程和公式拆解,如果想将V做大,自然的,我们需要构建转化率-访购率-毛GMV-净GMV-留存率-复购等关键节点的建模,并且这个也是推荐系统的观测指标。

在系统更大维度,我们需要关注长短期收益、用户/商家个体满意度和总体满意度以及兴趣探索成本、流量效率与商品/商家成长等维度。

02

推荐系统拆解

1. 基本架构

我这里拿一个前几年我刚开始入门推荐系统时候的架构:

最开始的阶段是召回过程,分为多个模块;实时模块会拿到用户实时的信息,比如用户实时点击、收藏、加购的商品,并获取这些商品的相似商品;历史模块会获取用户的历史信息,如历史的购买行为;画像模块则会获取用户的静态信息和偏好标签,如用户的设备型号、年龄、性别、类目偏好等;最后还会包括现在以及过去的热门商品等。

在经过这些召回的过程后,我们会进行一层过滤。比如曝光过滤,即某个类目已经曝光了一定次数,但是用户都没有点击,隐式表明用户不感兴趣。还有用户购买过滤,即已经购买过的短期内不再推荐。同时还有购买率过滤、性别过滤等等。

经过过滤阶段后,我们可以对过滤后的商品进行一定的预估。如点击率、转化率预估等。同时可以考虑单价,多样性以及新品率等影响进行排序。随后我们可以通过规则或者模型,将这些粗排后的物品统一得分进行融合,最后再经过精排阶段给出最终得分,这个阶段还会增加一些业务规则进行强控,比如考虑多样性的打散、出于运营需求的置顶等。

上述是大致推荐系统的简单介绍,不同的业务和团队,在构建过程中也存在模块的差异,推荐系统没有特别强的标准存在。

2. 召回策略

主要策略包括:

实时行为召回:在线实时捕捉用户对商品的点击,收藏,加购,购买等反馈行 为,并召回相似商品,迅速抓住用户的短期购物需求。

历史行为召回:离线分析用户对商品的历史点击,收藏,加购,购买等反馈行为,并召回相似商品,兼顾用户的长期购物需求。

profile召回:从性别,年龄段,设备等多个维度,在线和离线同时对用户进行

画像,并召回相对应的热门商品。不要小看这个召回,非常关键,往往新用户需要用这些静态信息和标签来做召回,往往可以快速圈定其圈层进行精准的探索和数据反馈,比如5-6线城市和北京西二旗的用户往往大概率兴趣差异较大。这层召回是全局热门召回的更精细化拆解。

热销&趋势召回:分析商品的长期和短期销量变化,召回爆款和近期热点商品。

  • 召回模块特别重要,因为召回的来源/相似分可以作为排序特征(推荐日志落盘-回看/溯源机制)

  • 召回作为漏斗的顶部,好坏对漏斗底部(排序)的影响很大。

3. 排序策略

排序阶段的影响因子较多,可以作为特征,也可以独立在外作为排序因子存在。比如以下的一些因子:Ctr Cvr Price、Ctr Ts、Match Score、Trigger score time decay、Match type ctr cvr、Match type score、...

当然针对不同的产品有不同的侧重点,比如电商的内容差异较大,甚至同是内容也会因为产品形态存在差异,比如快手的双列可以考虑点击率建模,而抖音单列下滑不需要考虑点击率建模。甚至还需要考虑多样性,惊喜性,新颖性等更多的指标。并且建模过程可以尝试end2end或单独建模的方式,这里面需要考虑的是稀疏性、正负比例、预估不准等问题。

如果一个指标不够,还可以考虑多个指标的结合,形成新的指标。如电商场景下,gmv这个指标,可以用CTRα*CVRβ*Priceγ代表gmv,那为什么还需要α、β、γ呢?因为如果ctr和cvr估计是准确的, α、β、γ均为1的排序公式是可解释的,你把这几个指标的分子分母拆开就看到了,相乘以后就是gmv。但是由于模型各自的准确率差异,导致了我们需要学习这几个参数,理论上建模越准确的指标系数越大。而这三个系数如果相对稳定可以通过离线统一参数学习的情况完成;如果不稳定,可通过强化学习来解决这个超参的设定。

可参看下图的电商场景建模的相关排序因子,当然部分因子作为特征可纳入排序模型。

4. 排序阶段还有一些常见的原则

① 针对不同的召回策略,主要秉持“短期行为优先,兼顾长期行为”,“保证多样性,避免过度个性化”原则。算法上主要通过长短期用户行为密度建模,正负反馈反向调节等手段来实现。

② 不同排序因子(商家质量/分发宽度及强度等等)可共用一套底层表征。

③ 覆盖率:通过类目,品牌,频道,场景等多粒度的打散重排,最大化各个维度的个性化覆盖率。

④ 疲劳度:通过引入一定的随机因子,针对不同个性化程度,建立合理的轮转机制,保证一定的新颖性。

⑤ 转化能力:通过对用户,商品,会场等多维度采集特征数据,训练点击转化和交易转化模型。大促期间 根据不同的阶段,采取差异化的处理策略。比如预热期强化点击转化,正式售卖期则强调交易转化。

5. 更加精细化的排序

① 考虑到召回和排序的压力,可以再精排和召回中间加一层,少量核心特征+简单模型进行粗排。

② 多过程建模:如直接购买还是收藏比价使用模型判断。举个例子,在购物车推荐中,用模型来操控推荐策略。在购物的流程中,通过数据分析可以发现,有一部分用户是希望通过加入购物车来进行比价, 还有一部分用户加入购物车是直接购买。通过模型来判断用户的行为,比如用户一直添加同类目的商品,那么比价的概率就高一些。如果判断出用户是直接购买,那么就尽量推荐相关商品,如果是比价用户,就推荐相似物品。

③ 粗粒度召回:离线产出不同类目下的精品数据,作为召回补充和兜底

④ E&E探索解决低置信度预估模型问题

6. 模型演进

模型的演进路线可以由下图表示:

而模型的时效性也从天级别,慢慢演化成小时(一天几次), 再演化成近实时级别,而目前主流的推荐系统都是实时级别。

目前模型的演进已经进入到深度学习时代,各个大厂提出的新的深度学习架构也层出不穷:

这里不对于模型具体结构过过多展开,主要趋势就是通过时序、行为特征的使用,通过embedding、LSTM、attention、tansformor等结构提取特征信息,拟合用户兴趣,提高预测精度。

7. 特征构建

这里主要解构一下电商推荐系统中特征的构建方式:

初级的方式,一般大家会对用户和商品进行一些用户画像,然后作为特征加入模型。但是长期来看,匹配类的特征非常重要,比如待排序的商品和用户历史行为的一个关系,上面提到的模型中,DIN和DIEN都很好的使用了这种行为序列。匹配特征一般是与点击特征结合在一起的,比如用户对于某个商品的点击,对于某个类别的点击,某类用户对于商品的点击等等。可以总结为下图:

8. 评估方式

针对于召回的评估方式,绝大部分都是通过命中率、准确率、覆盖率、F1-score等方式评估,参考下图:

但是因为推荐系统是串联的,我们往往需要考虑到前置模块对后置模块的影响,比如召回对于排序的影响,下图是LinkedIn的方式。

03

系统&全局生态 1. 推荐功能决策链路

做一个推荐功能之前,我们需要对这个产品功能的作用进行一定的决策,如:

  • 推荐功能对该产品有无价值 ( 可以 )

  • 价值多大 ( 值得 )

  • 成本和收益 ( 现在 )

  • 优先级 ( 怎样 )

同时还要对推荐功能的工程上的要求进行决策,如推荐系统的实时性做到毫秒级是否有必要。是否是毫秒级,应该以用户的使用习惯来决定,如80%的用户其实都是秒级需求,没有必要做到毫秒级的响应。

2. 场景串联与用户旅程

不同的场景需要兼顾业务定位,进行场景间差异化。场景单独优化时往往召回、排序策略会趋同,带来局部增益与全局增益最优的冲突,解法往往是产品业务层的干预与算法场景通信两种手段。

3. 方向&外围

从系统和生态全局来看,建设推荐系统既要考虑短期的gmv等指标,更要考虑长期的发展 ( 回访、复购、netGMV ) 。因此需要从更多的层面考虑推荐系统的建设,如:

供应商、seller等级建设,流量分配,运营机制。对于高登记的seller需要有更好的流量,但是对于等级较低的seller,也应该分配流量,帮助其提高等级。

商品理解&建设: 良好的后备力量。每个商品都有生命周期,虽然可能旧款的商品质量很高,但是我们在推荐的时候也要对新品进行流量分配,进行新品测试、流量扶持。

智能投放: 低延时、高效率展现。在考虑商品的流量分配时,还需要对用户的意图、兴趣、负反馈、视觉窄化进行考虑,不能不顾用户的体验。

生态多目标,包括用户体验,如回访、活跃度、复购率、分群倾斜等,也包括商家层级、价值、收益、良性竞争等目标,同时还需兼顾平台收益。在增长过程中,一定需要兼顾上述若干指标,若置之不理,则最终用户、商家都会流失,最终让产品僵化。

4. 生态多目标

从推荐系统的构建之初,我们就需要从以下角度去关注系统,设定合理的目标和观测指标。不能什么都是先污染后治理,两眼一抹黑。在增长过程中,一定需要兼顾上述若干指标,若置之不理,则最终用户、商家都会流失,最终使产品僵化。从用户体验角度,我们需要关注回访、活跃度、复购率、分群倾斜等;从商家角度,需要考虑商家层级、价值、收益、良性竞争;最后我们还需要关注平台收益。

04

话题探讨

下面我们在逐个结合业务展开一些相关探讨,这些探讨想要让大家了解到推荐系统构建过程中,对业务拆解的重要性。

1. 分群

根据用户的活跃度及行为密度进行分群,并对分群后的用户投放对应的热销进行兜底补足,或者作为主召回源。其中用户行为较多(交互过的物料个数和品类/主题较多)时,作为兜底召回做补足;而部分用户行为过少(新用户或刚进入APP行为数较少的),可以作为主召回策略,这时候可以做更精细化地数据集。

比如针对国家/地区、性别、设备这些新用户也可收集的静态标签分别做热销数据;比如印度、男性、IOS 的用户A和印度、女性、Android用户B,使用的热销列表是不一样的。其实其它分群策略也非常有用,比如购买力分群、兴趣分群;群体对类目的强偏好和弱偏好均可以在推荐中使用。强偏好基本就是喜欢看、喜欢买什么品类就具有这类偏好;弱偏好就是某类人群从来不会交互或者交互过低的类目,利用统计概率进行显著性检验,可以挑出群体显著不关心的品类,在推荐过程中少推荐或不推荐。

2. 电商同店铺用户行为

  • 做一下分析,看一下进入店铺页的用户后续的行为,可以酌情加重同店铺商品trigger的权重(实时获取),往往很多店铺有包邮门槛,这时候同店铺召回是满足包邮诉求。

  • 同店x2i(i2i、c2i、b2i等)可以做一个很好的实时上下文强化,这里trigger数量和召回数量都需要进行控制。

  • 考虑在rank的时候对每个召回源和召回分数进行埋点,在训练模型是考虑进行,这样就可以进行很好的多召回源融合,当然这个不是同店的情形也可以用。

3. 购物车推荐策略

在购物车场景,通过数据分析你会发现用户加购商品基本有2种用户,一种是对比,另一种是马上要买了再凑个单。这时候引入意图建模,通过实时的数据收集,对于用户加入购物车的商品进行意图预测,然后在i2i召回策略中使用不同的召回控制,比如召回相似和相关搭配。

这里推荐的策略可以考虑用加权融合的方式,对于相似和相关搭配召回源,根据预测的意图强弱进行比例调整;如果有埋点支持,还可以结合实时埋点,在排序层考虑上述融合。

05

总结

需要明确的是,业务效果好的并不一定是复杂算法, 建立推荐系统需要遵循“假设->分析->策略->效果”的流程。在出现的badcase中,需要回顾案发现场,在产品增加埋点,跟着数据走(实时) 。迭代模型需要跟着业务走,在badcase中发现新的思路。系统化地思考全局收益、场景串联、局部与全局最优的情况。最重要的是合理的指标,从健康生态系统的定义出发。以上就是此次分享的主要内容,谢谢大家阅读。


免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

SAP(思爱普)近日发出的裁员计划,不仅涉及全球范围内约8000个职位,更是在中国区造成了近1500名正式员工和合同工不续的情况。

关键字: 软件 互联网

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

最近总是出现iPhone16和ipad的概念新闻,以前为了跟风也会更换手机,后来是因为职业原因拍摄大量视频照片占据手机空间而不得已换了一部又一部手机。但慢慢地我发现,想要查找几年前的视频总得翻找之前的手机,流程繁杂又拖沓...

关键字: NAS 互联网 存储

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

近日,国内领先的在线旅行服务平台去哪儿宣布完成鸿蒙原生应用Beta版本开发,成为旅行行业中首批完成Beta版开发的应用之一,该版本已经实现了机票预订、支付、服务等功能,将为用户提供更为便捷、智能的旅行体验。这不仅为旅行行...

关键字: 鸿蒙 互联网 智慧旅行

随着科技的飞速发展,我们日常生活的方方面面都在逐渐被智能化、网络化所渗透。物联网(Internet of Things, IoT)作为一项将传统物品与互联网相结合的技术,正在引领着一个全新的技术革命。从家用电器到工业制造...

关键字: 物联网 互联网 IoT

3月12日是万维网(World Wide Web,互联网)创建35周年的日子,让我们来了解一下万维网发明者蒂姆·伯纳斯-李(Tim Berners-Lee)对网络和未来发展三点预测。

关键字: 互联网 伯纳斯李 AI助理 AI

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据
关闭
关闭