你是否曾经希望能够简单地互联网服务提供商(ISP)动态地基于网络路径的可靠性之间切换?许多网络工程师会回答是肯定的。这是在任何大小的环境中共同要求。

在Wayfair,我们在很大程度上依赖于我们的互联网的弹性和可靠性,以及广域网线路,不只是为客户流量,但对于VPN连接,备份DIA其他站点和数据中心,站点之间复制和云连接。虽然审批的解决方案,我们决定保持它的简单,不断降低成本,和创新我们自己和我们的步伐解决方案。这些因素使我们选择一个解决方案,被广泛使用的许多网络设备的基本功能集。有不同的名称此功能,但并没有得到供应商特定的,我们将其称之为板载事件管理(OEM)。

对于我们的第一次迭代,我们决定把它额外简单:我们创造了一些自动化坪各种可靠的Internet上的主机,调整了定时器,使他们在次优值失败,并监视他们,这样,当监视器失败OEM会有什么反应并会揭开序幕,我们建立了BGP一些自定义的配置脚本。这些脚本,反过来,将停止广告出到ISP和入站到我们的数据中心网络的较低层。

“为什么不(插入喜爱的链路负载均衡器/SDWAN解决方案)吗?它确实是,我们爱它!”

这并不是说我们不喜欢SDWAN解决方案,但要清楚,我们正在寻找我们的数据中心连接到互联网和潜在的数据中心到数据中心(物理和云中)。当然,还有使用的情况下我们的校园网站,一个SDWAN解决方案会更合适,可以帮助我们摆脱与电路有关的成本,并提高流量可视性/控制,但是这将是一个不同的文章。

我们知道的是,有这种类型的功能,从基于特征的SDWAN解决方案,以硬件的大结实的作品,可以推动一吨的交通解决方案的无数。许多这些解决方案都显著更先进,可以做大部分我们想知道的更多。然而,这些都加重了成本。一些成本上的考虑,很容易调出的是硬件,许可和年度维护。做一个总的多100GB云SDWAN成本也过高。OEM,而另一方面,成本为零,额外的美元。

当你扩展成100GB范围内的一些市场上的商业解决方案成为大量成本过高。对于我们的网络,我们将不得不花费大量的金钱像样的数目来获得,这将是能够支持我们当前业务负载,并能够扩展与去年同期相比,今年一个硬件解决方案。谷歌最近写道,特色Wayfair为100GB专用互连的第一采用者是一个博客文章。去年我们供应多100GB直接互连与谷歌为我们的谷歌的VPC任何谷歌注定公共交通。

读谷歌的Wayfair文章在这里

除了前期的硬件成本,还必须考虑与你的团队需要学习新的(可能专有)技术,咨询/培训相关的资源成本,提高设备的音量/技术来管理,处理架构复杂,处理潜在的性能降解与覆盖封装相关,最后需要刷新/更新另一件事每隔几年,并有可能重新开始。几乎每个人都对我们的团队已经感受到了要管理一个专有的解决方案的疼痛,尤其是功能加入到典型的网络硬件一整套解决方案。我们花了很多时间排除故障什么发现新的漏洞,例如。这是可扩展性和简单进来的能够在包装盒上运行任何命令,一个人的管理员可以运行基于给定轮询的条件。

我们已经开始考虑如何改进和发展我们的解决方案。例如,在我们当前的停止广告方法的基础上,将解决方案调整为多层的,并将基于定义的连接监视器的特定路由取消优先级添加到Internet上的多个点。我们还在考虑将这个想法扩展到我们的WAN和云架构中。还可以通过嵌入到硬件中的自定义脚本实现其他改进。我们也在考虑与NOC和服务所有者进行更深入的集成,通过一个“特性切换”,他们可以影响一个被监控的条件,影响路径选择,调整BGP参数,甚至调整基于策略的路由机制。

最后,任何网络工程师的目标应该是选择任何具体使用情况下的最佳解决方案,确保它是支持的,可靠的。我们的团队在Wayfair决定真的把这些核心原则,以心脏在我们的考虑,到目前为止,已经与该解决方案的成功。我们都期待着有什么新的进展,我们可以哄我们的齿轮出来,将不断创新,并根据需要调整我们继续取得成功。&

更多阅读OEM解决方案:

阿里斯塔事件处理程序阿里斯塔事件管理器

思科嵌入式事件管理

瞻博网络事件脚本