在视觉补充模型(VICS):互补的产品建议从视觉线索

2020年3月16日,

韩田柳

ESRA Cansizoglu在大海前留影

将有关Cansizoglu

介绍

创建家居装饰带来了独特的挑战,推荐系统:每个客户都有他/她自己的味道,想保持在他/她的家一个有凝聚力的个人风格。我们在Wayfair知道这是很难形容的话那味道,然后通过庞大的产品目录搜索,策划一个有凝聚力的样子。因此,我们利用机器利用视觉线索来缩小我们广阔的188金宝慱亚洲体育是赌博的嘛目录和帮助我们的客户找到最完美的项目来完成自己的家园学习算法。

在买回家的时候,混合搭配的家具是必须的,因为搭配的东西并不总是一堆一堆的。本着这一理念,我们努力帮助客户找到适合自己口味的匹配对象。兼容产品推荐是一个重要的工具,它可以简化寻找互补产品的过程。利用这个工具,我们可以满足有风格意识的客户的需求,帮助他们保持一个有凝聚力的家的风格。

图1:通过从图像理解的兼容性,我们解决我们客户的需要,以混合和匹配的项目。

大多数现有的推荐算法是建立基于客户的浏览历史记录,例如,协同过滤。但不确定性,多样性和每个客户的个人资料的及时性,以及没有新客户的历史,使得它具有挑战性,该算法是稳健给所有客户。此外,根据客户的互动模型往往偏向,有一个强烈的趋势,建议低价格和受欢迎的项目。反过来,有可能是为新产品冷启动问题。在Wayfair,我们希望能找到一个更好的办法。

在这篇文章中,我们将讨论我们帮助顾客寻找互补品的最新方法:视觉互补模型(ViCs)。这个模型不依赖于客户的输入,而是利用基于图像的模型(CNN)来理解产品图像的兼容性,从而模仿客户寻找他们想要的部件的方式,并消除了过程中的冷启动问题。维克旨在为所有Wayfair产品形象兼容性的理解,并为不同产品类别的互补的、风格相似的产品提供客户建议。

方法

目标

为了提供互补产品的建议,我们的模型的输出所需的作为产品之间的相对兼容性的表示。要做到这一点,我们的目标是创建一个持续的产品紧密兼容的数据点的嵌入空间,同时推不兼容的数据点分开。三重态损耗[1],在面部识别任务首次引入时,可以在这种情况下使用的方式来学习用于每一块代表的嵌入。三重态损耗最小化的锚定和文体锚相匹配的阳性之间的距离,并且最大化锚和负它们是不相容的文体间的距离。

与面部识别任务不同的是,面部识别任务通常处理的图像都属于同一领域(人脸),在我们的用例中,我们将看到各种各样的特征,以检查产品类的不同对。例如,兼容的沙发和重音椅可能是由相同的材料,而兼容的咖啡桌和沙发很可能不是。考虑到这一假设,我们增加了一个交叉熵损失用于类预测,使模型能够学习在查看不同的产品类匹配时注意不同的标准。

数据

深度学习模型的性能通常依赖于其训练数据的质量。因此,在我们的ViCs模型中,我们整合了来自多个来源的训练数据,以避免偏差。首先,我们对基于上下文的风格模型中的建议进行了重要性抽样玫瑰V2。我们还从开采3D场景图,3D艺术家在Wayfair使用,以此来渲染产品的三维模型逼真的图像,其三胞胎。我们以近似专家的文体的角度来看,我们的假设是由包括一个3D艺术家策划了给定的场景内的产品有文体兼容这样做。最后但并非最不重要的,我们希望包括客户的所表现出的偏向购买的热门产品(如在其他推荐算法成功抓获,其利用客户数据,例如Wayfair的RecNet)。因此,我们考虑了客户的浏览历史,包括客户添加到列表中的产品和共同订购的产品。

在我们的训练数据中,标记的三个一组由项目来自类A, A积极的从类B中匹配的项和一个来自类B的不兼容的物品。例如一个沙发的形象将是一个更加兼容积极的咖啡桌比a咖啡桌。经过识别风格属性训练的标签员确认了我们从上面提到的各种来源中挖掘出的无监督的三联体的质量,考虑到颜色、形状、材料和其他影响相容性的因素,因此他们可以作为ViCs模型的训练数据。

模型架构

为了了解嵌入空间,我们使用了一个带有三重损耗的连体网络架构,在这个架构中兼容的产品应该彼此靠近,反之亦然。

我们所用的传送学习我们的网络,我们的连体网络存在的基础玫瑰V3,我们团队之前的模型,通过对比学习了解房间图像的风格,它本身是通过ResNet 50[2]移植学习的。我们将RoSE v3的第二层最后一层作为嵌入层,对嵌入向量进行l2 -归一化,以约束嵌入层生存在d维超球面上。在我们最后的实现中,我们用欧氏距离的平方代替欧氏距离,并随着训练过程的增加边际,以方便收敛。

图2:以上是Wayfair的ViCs模型的架构。这个图是从ResNet模型(我们的模型转移学习的基础网络)的一个插图中绘制并修改的。查看原始ResNet模型的说明[2]。

结果

根据模型目标检查ViCs的性能

为了评估ViCs模型的性能,首先,我们使用离线度量标准根据模型目标来评估它的性能。

我们的一个主要目标是要为模型能够每三个一中区分兼容项目。该模型对这种度量表现良好,如图中下图展示三胞胎的一个例子,人类专家标签和模型输出之间达成一致。结果如该验证VICS能够学会在某些产品类别之间的了解兼容性方面的领域专家知识的颜色,形状,材料和风格,模仿的选择,人类将使条款。

图3:三重峰实施例的结果的量,模型的预测和人的标签是相同的。

但积极和消极的二元分类并不是我们的唯一目标;在这个模型中,我们还希望最小化锚点与正锚点之间的距离,同时将负锚点尽可能地推入其嵌入空间。下图显示了ViCs创建的嵌入空间中来自测试数据集的产品对之间的距离分布。从双峰分布为积极的产品,我们可以看出,模型正在学习区分积极的和消极的预期。

图4:在由VICS创建的嵌入空间的测试数据集产品之间距离分布可视化。

在用例VICS性能分析

除了其对我们的目标的表现,我们当然要评估VICS模型在实际使用的情况下,在Wayfair性能:产品的建议。要做到这一点,我们使用了训练的VICS模型的单支嵌入所有产品图片在Wayfair的目录。因此,该嵌入物将代表一组有助于互补兼容性产品的视觉特征。其结果是,通过做在嵌入空间中的最近邻搜索,我们能够提供兼容的产品建议,如在图5所示。

下面是从VICS模型,其中给出了沙发兼容产品推荐样本结果,建议在风格上类似但不同的口音椅子和口音表。

图5:锚产品客户有购买或浏览(左边的白色沙发),维克建议产品的排名列表(从左边的兼容,right-least兼容),兼容互补指定的锚定在每一个阶级,在这种情况下口音椅子(上层行)和口音桌子(较低的行)。

如上所示,ViCs模型能够利用各种属性的兼容性。它可以捕获跨产品类的一致特性,并将特性从一个部分带到另一个部分。推荐的重音椅有特点,如尖锐的内衬腿与金属口音,各种颜色和面料,不压倒皮革沙发,和/或簇绒垫子,匹配沙发处理细节。对于强调的桌子,再次没有颜色的冲突,和一个一般化的正方形/矩形形状,以反映形状和线条的沙发沙发的背部。

此外,正如您在上面的示例中所看到的,ViCs不仅能够提供非常相似以至于几乎相同的产品的建议,而且能够提供各种各样的建议。例如,这些建议在颜色和形状上各不相同,但仍然遵循一般的风格相似。ViCs实现这一点的一个方法是根据产品材料识别风格相似性。在我们的三个目标类(沙发、重音椅和重音桌)中,ViCs在重音桌方面做得特别好。例如,在图5中,推荐的桌子是由混合金属和丙烯酸制成的(因此是极简现代风格的常见组合),而不是皮革和大理石(这在维多利亚风格中很常见)。

未来的工作

在ViCs的初始版本中,我们在第一个目标类中看到了良好的效果。我们改进当前ViCs模型的第一步是增加类的覆盖率。我们还将努力利用ViCs嵌入来形成产品的视觉集群,这些产品反映了风格上完整而多样化的分类的功能。这些集群将作为客户购物旅程的起点,并作为基于视觉搜索嵌入的集群的补充方法。

参考文献

[1] Schroff, F., Kalenichenko, D., & Philbin, J. (2015)FaceNet:人脸识别聚类的统一嵌入。2015 IEEE计算机视觉和模式识别会议。doi: 10.1109 / cvpr.2015.7298682。p . 5

[2] K.他,X.章,S.仁,和J.太阳(2016)。深残留学习图像识别。IEEE CONF。上比较。愿景和帕特。建议,第770-778 ,.

提交评论

注意:您的电子邮件地址是必须添加评论,但不会公布。