晕效应平台

10月13日,2020年

由Sarah Cotterill.

对于Wayfair来说,了解对客户未来的各种客户行动的因果影响,如下载我们的移动应用程序,订阅/取消订阅我们的电子邮件列表,或在不同的产品类中购买,这是非常重要的。这些估计不仅会使战略业务决策提供信息,例如各种产品的价值主张应该是什么,但它们也向客户级营销努力通知客户级别。For example, when deciding whether to speak to customers about our in-home Assembly, extended Warranty, or Wedding Registry, we’d like to consider both how relevant these offerings are to the customer as well as the longer-term incremental value associated with successfully cross-selling them.

估计长期影响的挑战之一,或晕效应因此,这些行为是我们常常不能进行随机实验(即,我们不能随机分配一些客户购买家庭装配服务,并扣留其他人的服务)。相反,我们必须采用统计技术来尝试从观察数据中恢复因果估计。

第二个大挑战是,这些因果估计应该以高度一致和可扩展的方式生产,甚至作为我们希望测量光晕效果的事件组合会增加到200+。此外,我们希望频繁地为每次连续刷新的专用分析资源产生更新的估计。在这篇文章中,我们更详细地讨论了这些挑战,以及我们的HALO效果平台的努力的产出,提供了许多好处:

  • 自动化,效率和标准化:我们构建的平台自动为每月为关键客户“事件”组合而生成HALO效果估计。它还标准化了测量方法,使得跨事件的光环效应是强大的。
  • 更好的洞察力:由于平台每月生成估计,我们能够长期了解每次事件的光环效应如何随业务和营销策略的转变,底层客户群等。
  • 可扩展性:由于我们构建的平台是模块化且更宽的,因此可以轻松扩展以适应其他用例和营销事件,其中自选使因果推断(例如,客户服务呼叫,产品类别购买等)。

为什么不运行实验?

如上所述,这些是因果关系问题 - 我们希望了解更多,例如,家庭汇编服务导致客户随着时间的推移花费。回答因果问题的黄金标准是随机实验,客户被随机分配给不同的治疗,并对治疗组的兴趣KPI差异差异。随机化的天才是它确保了足够数量的客户,即唯一的因素一般跨治疗和对照组是治疗本身,意思是随机化平衡跨组的所有其他协变量(测量和未测量),允许我们分离治疗后KPI治疗的因果效果。如果我们遵守我们的结果指标的差异,那么我们可以更加信心它是由于治疗的因果效果。

不幸的是,如概述所述,在许多情况下,运行随机实验是困难或不可能的。We can’t, for example, for logical reasons, randomly assign new customers to buy a baby crib vs. an area rug as a first purchase (nor would giving cribs vs. area rugs away for free work, both due to practicality constraints, and as receiving the item as a windfall is psychologically different than deciding through free will to make the purchase). It’s also the case that people are self-selecting into these crib purchases in non-random ways — for example, customers purchasing cribs might be more likely on average than customers purchasing area rugs to be expanding their families and have a need for more nursery furniture in the near future. It then becomes difficult to say whether any lift in revenue we observe post crib purchase is due to the effect of the crib, per se, or the pre-existing differences in life-stages across the groups of customers that purchase cribs vs. area rugs.

因此,我们必须努力恢复观察(非随机)历史数据的因果估计。许多方法涉及计算一组功能,然后匹配类似的客户,其中一些恰好将其选择进入一个事件,其中一些人没有。但是,在1)中有很大的变化性,用于匹配的特征选择,以及2)如何实际完成匹配。

我们匹配什么?

您应该匹配哪一组变量?例如,如果您发现有相同的似然治疗的客户(即,匹配治疗的特征)?您是否应该为客户发现相同的预处理倾向来进行购买(即,匹配结果的特征)?在这里我们杠杆化了最近对因果推理工作建议对特征的匹配强烈预测治疗和弱预测结果实际上可以增强偏见(另见这里这里)。直观地,这是因为通过减少这些特征的方差量能够在治疗中解释为零,1)我们减少了相对于这些变量的偏差,但是2)我们强迫保持在治疗变量中的方差来完全解释剩下,也许不观察到的混乱。

因此,这项工作的建议是匹配强烈预测结果的特征,即长期总收入。在这种情况下,我们生成了〜300“寿命”功能,以捕捉与Wayfair的大部分客户的交互(例如,他们从第一次到达网站到生成的日期)。这些功能跨越三种广泛的交互类型:订单,访问和视图。从这些功能中,我们确定一个最预测未来12个月的总收入的子集。These are features we use for matching: they ensure that customers who take an action (“positives”), and those matched “negatives” (customers who don’t) are roughly equivalent, prior to the date on which the event of interest occurred, with respect to factors predictive the metric we are hoping measure in the long-term.

匹配算法

正如我们遇到的那样,它无法完全匹配所有功能维度诅咒:如果不是不可能的,那么在我们的积极和否定的情况下发现对阳性和负面的完全匹配变得越来越困难,因为匹配的功能的特征数量增加。研究人员提出了许多匹配算法,意味着克服维数的诅咒,然而,它们的效率,力量和减少跨组不平衡的能力变化。例如,用于解决维度诅咒的一种流行方法是倾向得分匹配g,您首先在您的一组协变量上归类处理,然后计算每个客户的预测分数,对应于“治疗倾向”。然后倾向得分匹配然后识别积极和负面客户池的等效倾向分数。然而,有许多已知问题具有倾向得分匹配,包括它近似的事实完全随机实验,协变者是平衡的一般跨组,而不是完全阻止的实验,其中协变量在群体上完全等同。以这种方式,倾向得分匹配是相对效率的;通过沿着许多维度折叠信息到单个维度,它会抛出相当多的信息,可用于进一步减少跨组的不平衡。

我们采用完全匹配,这是一种非常简单且非常强大的方法,近似完全块实验。从本质上讲,CEM为每个功能创建箱,然后与这些垃圾箱完全匹配。例如,我们可能会为所有先前的订单创建一个功能,然后通过融合客户进入0之前的订单,1-2前一个订单,3-4前一个订单等。我们可以为其创建一个功能上页视图,然后再次创建箱(0页面视图,1-5页视图,6-10页面浏览量等)。这些垃圾箱的组合称为“地层”。例如,以前的订单和6-10个上一页浏览部的客户形成一个地层。然后,我们将顾客完全是积极的或负面的典范,导致有否定的地层匹配(跨越所有协变者)有积极的。有关CEM为什么特别强大的更多信息,为什么它更有效地减少不平衡而不是其他匹配方法,如倾向得分匹配,看到这一点

光环效应工程管道

工程管道的第一步是找到正面和负面事件的历史例子。在这里,重要的是通过选择有资格与积极匹配的否定客户的适当的反事实池来思考。匹配查找具有Wayfair的等效历史的客户(相当数量的页面浏览量,订单等),但也重要的是识别客户在他们的考虑周期中的类似点。这尤其如此,因为我们的产品具有相对较长的间隔时间(例如,客户不每周购买新的沙发),并因此系统地选择较低的负池中的客户时变意图会偏向光晕效应的事件向上估计,因为我们将对我们在Wayfair具有类似的长期历史的否定的否定的积极举例,但事实恰恰在他们的短期考虑周期中达到了一点’t in-market. We are therefore judicious in how we define our counterfactual pool—for example, to estimate purchases of complementary services, we pull all orders in the same timeframe as our positives’ service purchases, but from customers who didn’t purchase the service. Likewise, for estimating the halo effect of an email acquisition (e.g., a customer giving us their email address) during a visit, we take customers who had a same visit in the same time period and weren’t acquired.

一旦我们为每种事件提取我们的正负池,我们会为池中的每个客户生成用于匹配的功能。为避免治疗后偏差,我们考虑信息达到事件日期,但不是在计算这些功能时。换句话说,在发生事件之前,我们发现近似值的客户。然后我们可以更有信心,我们观察到的任何差异治疗后是由于治疗本身。

我们对每种事件进行粗糙的完全匹配,以识别我们匹配的正面和负面客户,然后估计这些匹配样品中的平均治疗效果。最后,该平台将结果写入Hive表。

验证

我们如何知道我们是否近似了事件的基础真正因果效果?在时间段多久了,我们可以合理准确地估计光环效应吗?活动后30天?90天?As interpurchase cycles are long and it can take some time for revenue to land, we’d ideally observe revenue spent by the matched groups over a relatively long-time frame to get as close to the “true” long-term halo effect of an event as possible. However, the further out one goes, the more likely it is that the matched groups drift apart for reasons unrelated to the event, making it harder to isolate the effect of the event per se on gross revenue. Being able to identify the longest window at which we are able to confidently produce estimates is therefore quite important.

要回答这些问题,我们使用两种方法:A / A测试A / B回溯

A / A测试

a / a测试的逻辑是匹配两组客户这应该是一样的,即,在没有治疗的情况下,例如,在客户选择中的情况下匹配相同活动,或匹配和跨群体的总收入之前稍后将一组自我选择入一个事件。然后,我们遵守匹配之日的不同时间间隔在匹配群体中的总收入是否存在差异(例如,匹配后30天,匹配后90天,匹配后180天)。这是有用的原因是,如果我们看到的话,群体在没有治疗的情况下没有显着差异90天,则表明我们观察到的任何差异存在治疗/收购90天,是由于治疗本身而不是匹配的质量降级加班。如果我们还观察到90天没有显着差异,但是有180天的差异有很大的差异,那么我们知道最大的事件后观察窗口我们可以自信地生成90天。

下面我们展示了我们A / A测试的一些结果 - 特别是估计所有在预定时间内点击的客户(即,他们选择进入相同事件)。在X轴上,我们展示了观察收入的不同间隔(匹配后30天,匹配后90天和匹配后180天)。在Y轴上,我们在匹配组上显示了这些时间框架的收入差异。为了了解自己的可靠性,我们向业绩显示平台的四个不同运行日期(1月,2月,3月和4月)。结果明显三件事:

1)一般来说,在不同的时间窗口,我们观察到小差异在匹配群体之间的总收入中,建议匹配做得很好地找到类似类似的客户。

2)在匹配后90天的平均收入方面,组之间的群体之间没有显着差异,并且有180天的显着但没有实际有意义的差异(即,只有1美元的区别)。

3)这些估计跨时间非常稳定。

在这些结果的基础上,我们决定为每项活动的估计,每个月,超过两个时间框架-90天和180天。90天的估计估计更准确,虽然它们在较短的窗口中遵守收入;180天的估计数量不太准确,但允许更多的收入到土地。

A / B回溯

作为第二种验证形式,我们进行了A / B回溯。这里的逻辑是运行A / B测试来估计事件的因果效果 -存在强大A / B测试的事件- 并同时使用光晕效应平台来使用观察(非随机)数据来估计同一事件的因果影响。然后,我们看看估计HEP是否产生的估计从A / B检验中的95%置信区间落下。如果它确实如此,我们得出结论,在误差范围内,HEP估计充分近似于A / B测试估计。

我们显示在90天的90天A / B后退结果 - 特别是A / B检测估计显示,90天后的事件发生,治疗组的客户基本上不超过控制组的客户(95%置信区间包括零;注意因为我们正在测量收入 - 而不是,例如,转换率 - 估计有点嘈杂,反映在某种宽的置信范围内)。我们还认为,7.38美元的HEP点估计属于A / B测试的置信区间。

90天A / B后退结果

估计(总收入) 置信区间
A / B测试治疗效果估计 - 1.68美元 [ - $ 14.34,$ 11.00]
HEP治疗效果估计 - 7.38美元 [ - $ 32.98,18.21]

我们达到类似的结论时,在考虑180天的结果 - 再次,河流估计在A / B试验估计的95%置信区间内落在-45%的置信区间内 - 尽管置信区间仍然更广泛,但反映了估计估计的更大的不确定性较长的观察窗口。

180天A / B回到最终结果

估计(总收入) 置信区间
A / B测试治疗效果估计 - 4.80美元 [ - $ 21.40,11.79美元]
HEP治疗效果估计 - 15.70美元 [ - $ 61.09,$ 29.62]

这些结果表明,HEP能够在错误的界限内近似,来自所讨论的事件的黄金标准A / B测试的结果。仍然存在一个问题,其中结果如何概括为估计其他事件,但是当与A / A测试的类似令人鼓舞的结果相结合时,调查结果建立了平台能够纠正原始观察中的偏差的信心数据,并作为足够的待机执行,用于估算运行A / B测试的情况下的因果效果。

结论

Halo效果平台目前正在生产中运行,允许我们估计客户行动和事件的增量因果影响。这反过来允许我们优化业务的长期增长;通过向客户发言,了解过去的客户的积极经验(通过再次与我们的回归和购物而证明),新客户自己可能会再次与我们一起回来 - 为客户赢得胜利和胜利对于业务!

提交评论

注意:您的电子邮件地址需要添加评论,但不会发布。