新冠疫情大爆发让航空旅行业不得不应对各种重大变化和不确定性。2020年,美国捷蓝航空(JetBlue Airways)做出决定,将公司的竞争优势依靠于IT——尤其是对其数据堆栈进行转型,以整合数据运营、根据客户反馈指导运营、减少天气和延误对下游的影响、确保飞机的安全性等方面。
捷蓝航空数据工程总经理 Ashley Van Name
捷蓝航空数据工程总经理Ashley Van Name说:“早在2020年,捷蓝航空的数据团队就开始了对公司数据堆栈长达多年的转型,目标是能够近乎实时地访问更多数据,确保所有关键系统的数据都集成在一个地方,消除那些让团队人员无法构建高级分析产品的计算和存储瓶颈。”
在此之前,捷蓝航空的数据运营是以本地数据仓库为中心的,其中保存了少数关键系统的信息。公司会根据数据集的情况以每天或者每小时为单位更新一次数据,但是这仍然会导致数据延迟的问题。
Van Name表示:“这导致了严重的局限性,意味着团队人员无法使用实时数据开发自助报告产品。所有运营报告都需要建立在运营数据存储层之上,这个存储层受到高度保护,而且可分配用于报告目的的计算量十分有限。”
数据可用性和查询性能也是一个问题。本地数据仓库是一个物理系统,具有预先配置的存储和计算量,这就意味着查询请求经常要与数据存储竞争资源。
“由于我们无法阻止分析师查询他们需要的数据,所以我们也就无法在仓库中集成我们可能想要的尽可能多的额外数据集——在这种情况下,‘计算’需求实际上是远远高出存储空间的。”
这个系统还被限制在任何时间最多运行32个并发查询,系统每天会创建一个查询队列,从而延长查询运行的时间。
如何解决?这家总部位于纽约州长岛市的航空公司决定把目光投向了云端。
接近实时的数据引擎
捷蓝航空与数据云厂商Snowflake展开合作,改造自己的数据堆栈,他们首先把公司的数据从传统的本地系统迁移到Snowflake数据云上,Van Name说,这极大地缓解了公司很多最为紧迫的问题。
随后,捷蓝航空的数据团队把重点放在了集成那些分析师们以前无法在本地系统中访问的关键数据集。数据团队向分析师们提供了50多种近乎实时的数据,涵盖航空公司的航班动态系统、机组人员跟踪系统、预订系统、通知管理器、值机系统等,并且这些数据在源系统中被接收到之后,一分钟之内即可在Snowflake中可用。
“我们把Snowflake中的数据产品数量增加到是本地仓库中的5倍多,”Van Name说。
捷蓝航空的数据转型之旅才刚刚开始。Van Name表示,将数据迁移到云端只是解决难题的其中一个部分:下一个挑战,是要确保分析师们能够轻松地与平台中的可用数据进行交互。
她说:“到目前为止我们已经做了大量工作对我们的数据产品进行清理、组织和标准化,但仍有待取得进展。我们坚信,一旦数据被整合和清理,数据团队的重点需要转移到数据管理上来。”
她认为,数据管理对于确保各级分析师能够与公司数据进行交互来说是至关重要的,而且她补充说,以前新来的分析师在开始数据交互的时候往往存在一定的门槛,而构建可以回答有关数据集常见问题的、单一且易于使用的事实信息表,将有助于消除这一壁垒。
除了近乎实时的报告之外,这些数据可以输入到机器学习模型中。
捷蓝航空数据科学与分析总经理Sai Pradhan Ravuru
捷蓝航空数据科学和分析总经理Sai Pradhan Ravuru说:“除了数据管理之外,我们还开始加速内部的数据科学计划。在过去的一年半中,我们成立了一个新的数据科学团队,一直在使用Snowflake中的数据构建机器学习算法,这些算法可以预测我们的运营状态,让我们能够了解更多客户和他们的喜好。”
Ravuru表示,目前数据科学团队正在开发一种大型的AI产品,以协调捷蓝航空的效率。
Ravuru说:“该产品由数据工程和数据科学团队密切合作开发的二级精选数据模型提供支持,更新了机器学习产品中使用的很多特性。机器学习产品的几个分支生态系统构成了我们长期战略的基础,为捷蓝航空的每个团队提供了预测性洞察力。”
驾驭变革
就在两年前,捷蓝航空转向采用Snowflake。Van Name表示,在过去的一年中,如果按照月活用户来衡量的话,该平台的内部采用率增加了近75%,用户自助报告数量也增加了20%多。
Ravuru说,他的团队已经在生产中部署了两种机器学习模型,涉及到动态定价和客户个性化。快速原型设计和迭代,让他的团队能够在每次部署的时候更快地操作数据模型和机器学习产品。
“此外,与查询延迟(即每秒查询数)无关的精选数据模型,为数据科学家、人工智能和机器学习工程师开发的ML API提供了灵活的在线特性存储解决方案,这样就可以根据需要在几毫秒内或者是以批量的方式提供数据,战略性地利用实时流管道。”
虽然每家公司都面对独有的挑战,但Van Name认为,采用以数据为中心的思维方式是支持更大规模变革的一个主要组成部分。她说,确保领导层了解当前的挑战以及有助于缓解这些挑战的市场技术选择,这一点是尤为重要的。
她说:“有时候深入了解大型组织中存在的所有数据问题是一项挑战。在捷蓝航空,我们每年都会对我们的数据用户进行调查,以便在官方论坛上获得他们的反馈。我们利用这些反馈来制定我们的战略,更好地了解我们在哪些方面做得很好,在哪些方面还有改进的机会。收到反馈很容易,付诸行动才是真正可以做出改变的时候。”
她还指出,与组织内以数据为中心的领导者们展开直接合作是至关重要的。
“你的数据堆栈只有在给用户带来价值的时候才能体现它的好处,作为技术数据领导者,你可以花时间为你的组织策划出最好的、最完整的、最准确的信息集,但如果没有人使用这个信息集来做出决策或者甚至都无人知晓的话,那么你所做的实际上是毫无价值的。与能够利用数据的团队领导建立关系,这将有助于实现数据的全部价值。”
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面