汽车信息服务公司Edmunds：通过数据基础设施整合为AI奠定基础

Edmunds这家汽车信息服务公司开始利用生成式AI和其他机器学习功能，但首先必须重塑他们的数据处理、数据仓库和数据科学基础设施。

十年来，汽车库存和信息在线资源公司Edmunds一直在努力整合他们的数据基础设施。现在，随着数据中心的基础设施建设变得井然有序，这家总部位于美国加州的公司开始展望一个以人工智能和机器学习为核心的大胆新未来。

Edmunds公司技术副总裁Greg Rokita表示：“我们已经解决了大部分整合上的挑战，现在，我们如何在人工智能领域保持领先地位？我们应该开发哪些基础框架来提高产品团队的生产力并超越竞争对手？”

Rokita在Edmunds公司工作超过18年时间，自2005年开始担任公司的技术执行总监。现在，他的职责包括数据工程、分析开发以及车辆库存和统计与定价团队。

Edmunds创建于1966年，只开始主要是提供一系列印刷版购买指南，从20世纪90年代开始通过CD-ROM提供数据。不久之后，他们就开始转向在线模式。Rokita在公司推出第一本免费在线杂志时加入公司，几年后，他的团队推出了公司的首款手机应用。

如今，Edmunds公司的网站提供了有关新车和二手车价格、经销商和库存清单的数据、国家和地区激励和回扣数据库，以及车辆评论、购买和拥有汽车的建议。Edmunds公司在2021年被Carmax以4.04亿美元收购。

Rokita希望在人工智能领域保持领先地位的方法之一，就是打造一个新的ChatGPT插件，将Edmunds公司的非结构化数据（包括车辆评论、评级、社论）公开给生成式AI。

ChatGPT背后的公司OpenAI在名为Common Crawl的数十亿个公开网页的语料库上训练了生成式AI。但在一个以互联网速度发展的世界中，这些数据很快就会过时。Edmunds打造这个新插件背后的想法，是让ChatGPT能够从大量专业且不断更新的数据中进行提取。

Rokita表示：“如果你问它，‘2022款丰田凯美瑞驾驶起感觉如何？’你可能什么也得不到，而通过开发一个插件，我们会公开我们的最新数据。”

对于Edmunds来说，他们希望生成式AI的用户如果想要了解更多车辆细节或图片，可以点击Edmunds的网站链接，从而增加流量。

就像21世纪互联网革命几乎改变了每个行业一样，Rokita坚信，现在我们正处于一个新的拐点。

他说：“二十到三十年前，互联网深深根植中每家企业。我们相信，人工智能现在也正在发生同样的事情。无论是农业公司、工业公司还是建筑公司，人工智能都将嵌入其中，用于优化订购材料的方式、确定农作物是否需要浇水的方式，等等。”

如果人工智能没有成为公司结构的一部分，Edmunds就会落后。

他说：“我的团队面临的一部分挑战，是创建框架并推动公司走上这条道路。”

Rokita认为，实现这一转变的关键，是要停止将数据仓库和AI/ML视为具有自己独特系统的一个独立部门。

他说：“人们需要明白，这些实际上是同一系统的不同表现，数据仓库是关于过去的数据，而模型是关于未来的数据。想象一下有这么一张表，其中有过去的行为和预测的未来行为，所以这都是一个时间线上的。”

这个想法促使Rokita下定决心，整合Edmunds公司的数据基础设施，并且像许多早期看到新数据技术优势的公司一样，Edmunds的数据基础设施作为一系列最佳单点解决方案发展起来。

“我们从基于Oracle RAC构建的专用数据仓库开始，逐步发展到Netezza和Teradata等专业系统。过去我们使用Hadoop来处理数据，然后将其加载到Netezza中供人们查询。”

大约十年前，Rokita决心开始整合基础设施。第一步是迁移到云端，团队使用Amazon Redshift取代了Netezza，后来又添加了用于数据科学和人工智能的Databricks云平台。但这次整合仍然不够彻底：由于数据科学、数据仓储和数据处理有不同的系统，因此团队仍然不得不担心数据是不同步的。

Rokita表示：“当你与分析师展开合作时，他们会看到两个不同位置的数据，并且数据是不匹配，他们就会失去信任，组织内的用户对数据持有一致的看法是至关重要的。”

随着Databricks向其平台中添加了新的数据仓库功能，Rokita决定放弃Redshift和Hadoop，转而使用Databricks作为AWS上的一层来完成所有工作。Rokita表示，这一变化不仅有助于降低成本，还使运营管理变得更加容易。

他说：“现在我们有了一个系统，可以处理数据处理和服务，还有一个额外的好处，那就是你可以在其上创建模型，而无需复制数据。”

现在，Rokita和他的团队正在使用Databricks的最新功能之一：Databricks Marketplace，这是一个数据、AI模型和应用市场。Databricks还在规划和发布跨指令跟踪和文本摘要等常见用例的开源模型，作为其产品的一个组成部分，此外，第三方数据提供商也加入其中，包括S&P Global、Experian、Accuweather、LexisNexis等。

Rokita相信，只需点击一下，即可将第三方数据加入Edmunds的数据，而无需任何开发时间，这将为Edmunds公司和分析及机器学习使用开辟新的前景。

他说：“你可以搜索你需要的东西，比如说，你的汽车产品潜在消费者的人口统计数据，然后你可以在广告活动中使用这些数据。你所要做的就是单击一个框，然后数据集就会出现在Databricks中。”

他特别指出，Edmunds母公司Carmax也运行着他们自己的Databricks实例，但是运行在微软Azure上的，而Edmunds的实例是运行在AWS上。有了Marketplace，就无需统一基础设施。

他说：“通常，我们希望彼此共享数据，现在，无需开发成本，我们就可以与他们共享数据集，他们也可以与我们共享数据集。我们对数据共享、以及对接下来的模型共享和仪表板共享感到十分兴奋。”

来源：至顶网CIO与CTO频道

0赞

好文章，需要你的鼓励

汽车信息服务公司Edmunds：通过数据基础设施整合为AI奠定基础

来源：至顶网CIO与CTO频道

2023

07/19

16:44

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

入局智驾的印奇，看到了怎样的未来？

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

阿里云李飞飞：将大模型，装进数据库里

小米15 Ultra、SU7 Ultra、米家中央空调Pro等重磅发布，雷军：一个全新时代的开始

德勤2025技术趋势报告，AI与企业未来的交汇

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会