十年来,汽车库存和信息在线资源公司Edmunds一直在努力整合他们的数据基础设施。现在,随着数据中心的基础设施建设变得井然有序,这家总部位于美国加州的公司开始展望一个以人工智能和机器学习为核心的大胆新未来。
Edmunds公司技术副总裁Greg Rokita表示:“我们已经解决了大部分整合上的挑战,现在,我们如何在人工智能领域保持领先地位?我们应该开发哪些基础框架来提高产品团队的生产力并超越竞争对手?”
Rokita在Edmunds公司工作超过18年时间,自2005年开始担任公司的技术执行总监。现在,他的职责包括数据工程、分析开发以及车辆库存和统计与定价团队。
Edmunds创建于1966年,只开始主要是提供一系列印刷版购买指南,从20世纪90年代开始通过CD-ROM提供数据。不久之后,他们就开始转向在线模式。Rokita在公司推出第一本免费在线杂志时加入公司,几年后,他的团队推出了公司的首款手机应用。
如今,Edmunds公司的网站提供了有关新车和二手车价格、经销商和库存清单的数据、国家和地区激励和回扣数据库,以及车辆评论、购买和拥有汽车的建议。Edmunds公司在2021年被Carmax以4.04亿美元收购。
Rokita希望在人工智能领域保持领先地位的方法之一,就是打造一个新的ChatGPT插件,将Edmunds公司的非结构化数据(包括车辆评论、评级、社论)公开给生成式AI。
ChatGPT背后的公司OpenAI在名为Common Crawl的数十亿个公开网页的语料库上训练了生成式AI。但在一个以互联网速度发展的世界中,这些数据很快就会过时。Edmunds打造这个新插件背后的想法,是让ChatGPT能够从大量专业且不断更新的数据中进行提取。
Rokita表示:“如果你问它,‘2022款丰田凯美瑞驾驶起感觉如何?’你可能什么也得不到,而通过开发一个插件,我们会公开我们的最新数据。”
对于Edmunds来说,他们希望生成式AI的用户如果想要了解更多车辆细节或图片,可以点击Edmunds的网站链接,从而增加流量。
就像21世纪互联网革命几乎改变了每个行业一样,Rokita坚信,现在我们正处于一个新的拐点。
他说:“二十到三十年前,互联网深深根植中每家企业。我们相信,人工智能现在也正在发生同样的事情。无论是农业公司、工业公司还是建筑公司,人工智能都将嵌入其中,用于优化订购材料的方式、确定农作物是否需要浇水的方式,等等。”
如果人工智能没有成为公司结构的一部分,Edmunds就会落后。
他说:“我的团队面临的一部分挑战,是创建框架并推动公司走上这条道路。”
Rokita认为,实现这一转变的关键,是要停止将数据仓库和AI/ML视为具有自己独特系统的一个独立部门。
他说:“人们需要明白,这些实际上是同一系统的不同表现,数据仓库是关于过去的数据,而模型是关于未来的数据。想象一下有这么一张表,其中有过去的行为和预测的未来行为,所以这都是一个时间线上的。”
这个想法促使Rokita下定决心,整合Edmunds公司的数据基础设施,并且像许多早期看到新数据技术优势的公司一样,Edmunds的数据基础设施作为一系列最佳单点解决方案发展起来。
“我们从基于Oracle RAC构建的专用数据仓库开始,逐步发展到Netezza和Teradata等专业系统。过去我们使用Hadoop来处理数据,然后将其加载到Netezza中供人们查询。”
大约十年前,Rokita决心开始整合基础设施。第一步是迁移到云端,团队使用Amazon Redshift取代了Netezza,后来又添加了用于数据科学和人工智能的Databricks云平台。但这次整合仍然不够彻底:由于数据科学、数据仓储和数据处理有不同的系统,因此团队仍然不得不担心数据是不同步的。
Rokita表示:“当你与分析师展开合作时,他们会看到两个不同位置的数据,并且数据是不匹配,他们就会失去信任,组织内的用户对数据持有一致的看法是至关重要的。”
随着Databricks向其平台中添加了新的数据仓库功能,Rokita决定放弃Redshift和Hadoop,转而使用Databricks作为AWS上的一层来完成所有工作。Rokita表示,这一变化不仅有助于降低成本,还使运营管理变得更加容易。
他说:“现在我们有了一个系统,可以处理数据处理和服务,还有一个额外的好处,那就是你可以在其上创建模型,而无需复制数据。”
现在,Rokita和他的团队正在使用Databricks的最新功能之一:Databricks Marketplace,这是一个数据、AI模型和应用市场。Databricks还在规划和发布跨指令跟踪和文本摘要等常见用例的开源模型,作为其产品的一个组成部分,此外,第三方数据提供商也加入其中,包括S&P Global、Experian、Accuweather、LexisNexis等。
Rokita相信,只需点击一下,即可将第三方数据加入Edmunds的数据,而无需任何开发时间,这将为Edmunds公司和分析及机器学习使用开辟新的前景。
他说:“你可以搜索你需要的东西,比如说,你的汽车产品潜在消费者的人口统计数据,然后你可以在广告活动中使用这些数据。你所要做的就是单击一个框,然后数据集就会出现在Databricks中。”
他特别指出,Edmunds母公司Carmax也运行着他们自己的Databricks实例,但是运行在微软Azure上的,而Edmunds的实例是运行在AWS上。有了Marketplace,就无需统一基础设施。
他说:“通常,我们希望彼此共享数据,现在,无需开发成本,我们就可以与他们共享数据集,他们也可以与我们共享数据集。我们对数据共享、以及对接下来的模型共享和仪表板共享感到十分兴奋。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。