十年来,汽车库存和信息在线资源公司Edmunds一直在努力整合他们的数据基础设施。现在,随着数据中心的基础设施建设变得井然有序,这家总部位于美国加州的公司开始展望一个以人工智能和机器学习为核心的大胆新未来。
Edmunds公司技术副总裁Greg Rokita表示:“我们已经解决了大部分整合上的挑战,现在,我们如何在人工智能领域保持领先地位?我们应该开发哪些基础框架来提高产品团队的生产力并超越竞争对手?”
Rokita在Edmunds公司工作超过18年时间,自2005年开始担任公司的技术执行总监。现在,他的职责包括数据工程、分析开发以及车辆库存和统计与定价团队。
Edmunds创建于1966年,只开始主要是提供一系列印刷版购买指南,从20世纪90年代开始通过CD-ROM提供数据。不久之后,他们就开始转向在线模式。Rokita在公司推出第一本免费在线杂志时加入公司,几年后,他的团队推出了公司的首款手机应用。
如今,Edmunds公司的网站提供了有关新车和二手车价格、经销商和库存清单的数据、国家和地区激励和回扣数据库,以及车辆评论、购买和拥有汽车的建议。Edmunds公司在2021年被Carmax以4.04亿美元收购。
Rokita希望在人工智能领域保持领先地位的方法之一,就是打造一个新的ChatGPT插件,将Edmunds公司的非结构化数据(包括车辆评论、评级、社论)公开给生成式AI。
ChatGPT背后的公司OpenAI在名为Common Crawl的数十亿个公开网页的语料库上训练了生成式AI。但在一个以互联网速度发展的世界中,这些数据很快就会过时。Edmunds打造这个新插件背后的想法,是让ChatGPT能够从大量专业且不断更新的数据中进行提取。
Rokita表示:“如果你问它,‘2022款丰田凯美瑞驾驶起感觉如何?’你可能什么也得不到,而通过开发一个插件,我们会公开我们的最新数据。”
对于Edmunds来说,他们希望生成式AI的用户如果想要了解更多车辆细节或图片,可以点击Edmunds的网站链接,从而增加流量。
就像21世纪互联网革命几乎改变了每个行业一样,Rokita坚信,现在我们正处于一个新的拐点。
他说:“二十到三十年前,互联网深深根植中每家企业。我们相信,人工智能现在也正在发生同样的事情。无论是农业公司、工业公司还是建筑公司,人工智能都将嵌入其中,用于优化订购材料的方式、确定农作物是否需要浇水的方式,等等。”
如果人工智能没有成为公司结构的一部分,Edmunds就会落后。
他说:“我的团队面临的一部分挑战,是创建框架并推动公司走上这条道路。”
Rokita认为,实现这一转变的关键,是要停止将数据仓库和AI/ML视为具有自己独特系统的一个独立部门。
他说:“人们需要明白,这些实际上是同一系统的不同表现,数据仓库是关于过去的数据,而模型是关于未来的数据。想象一下有这么一张表,其中有过去的行为和预测的未来行为,所以这都是一个时间线上的。”
这个想法促使Rokita下定决心,整合Edmunds公司的数据基础设施,并且像许多早期看到新数据技术优势的公司一样,Edmunds的数据基础设施作为一系列最佳单点解决方案发展起来。
“我们从基于Oracle RAC构建的专用数据仓库开始,逐步发展到Netezza和Teradata等专业系统。过去我们使用Hadoop来处理数据,然后将其加载到Netezza中供人们查询。”
大约十年前,Rokita决心开始整合基础设施。第一步是迁移到云端,团队使用Amazon Redshift取代了Netezza,后来又添加了用于数据科学和人工智能的Databricks云平台。但这次整合仍然不够彻底:由于数据科学、数据仓储和数据处理有不同的系统,因此团队仍然不得不担心数据是不同步的。
Rokita表示:“当你与分析师展开合作时,他们会看到两个不同位置的数据,并且数据是不匹配,他们就会失去信任,组织内的用户对数据持有一致的看法是至关重要的。”
随着Databricks向其平台中添加了新的数据仓库功能,Rokita决定放弃Redshift和Hadoop,转而使用Databricks作为AWS上的一层来完成所有工作。Rokita表示,这一变化不仅有助于降低成本,还使运营管理变得更加容易。
他说:“现在我们有了一个系统,可以处理数据处理和服务,还有一个额外的好处,那就是你可以在其上创建模型,而无需复制数据。”
现在,Rokita和他的团队正在使用Databricks的最新功能之一:Databricks Marketplace,这是一个数据、AI模型和应用市场。Databricks还在规划和发布跨指令跟踪和文本摘要等常见用例的开源模型,作为其产品的一个组成部分,此外,第三方数据提供商也加入其中,包括S&P Global、Experian、Accuweather、LexisNexis等。
Rokita相信,只需点击一下,即可将第三方数据加入Edmunds的数据,而无需任何开发时间,这将为Edmunds公司和分析及机器学习使用开辟新的前景。
他说:“你可以搜索你需要的东西,比如说,你的汽车产品潜在消费者的人口统计数据,然后你可以在广告活动中使用这些数据。你所要做的就是单击一个框,然后数据集就会出现在Databricks中。”
他特别指出,Edmunds母公司Carmax也运行着他们自己的Databricks实例,但是运行在微软Azure上的,而Edmunds的实例是运行在AWS上。有了Marketplace,就无需统一基础设施。
他说:“通常,我们希望彼此共享数据,现在,无需开发成本,我们就可以与他们共享数据集,他们也可以与我们共享数据集。我们对数据共享、以及对接下来的模型共享和仪表板共享感到十分兴奋。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。