CIO如何为AI确保数据质量

优质数据对AI项目成功至关重要。研究显示,具备数据成熟度的企业更容易在生产环境中成功部署生成式AI解决方案。多家企业CIO分享了构建数据湖仓、数据仓库等统一数据平台的实践经验。Skyworks通过Databricks构建数据湖仓,建立青铜、白银、黄金三层数据质量体系。Gallo利用生成式AI识别数据偏差并填补数据缺口。这些实践证明,强大的数据治理和统一的数据基础是实现AI转型价值的关键。

高质量的数据对任何IT项目的成功都至关重要,对AI项目来说更是如此。虽然劣质数据总是会产生糟糕的结果,但对AI而言风险尤其高,因为数据质量差可能导致严重的财务损失、监管罚款和声誉损害。然而,为成功项目提供优质数据的举措可能会带来显著甚至颠覆性的战略优势。

"在AI领域,垃圾进垃圾出的问题会成倍放大,"无线网络半导体制造商Skyworks Solutions的副总裁兼CIO Satya Jayadev说道。"任何优秀AI系统的秘诀在于如何构建数据层。重要的是要建立这种架构和基础设施——理解数据源、生成数据并构建单一数据平台。"

对于Jayadev和其他人来说,这意味着要加倍投入数据湖、数据仓库或数据湖仓的实施,将其作为AI的单一数据来源,无论是传统机器学习、生成式AI还是智能体AI。

十多年前大数据兴起时,数据湖应运而生,用于容纳非结构化数据作为分析洞察的来源。数据湖仓(有时称为查询加速器)像数据湖一样包含非结构化数据,但添加了类似数据仓库的结构层,以更快速、更经济地提供洞察。

CIO们正在运用这些和其他数据技术来确保数据管道的稳健性和质量水平,以便从其AI战略中实现变革性价值。

更好的数据=更好的AI

已采取措施更好地组织其数据的组织更有可能拥有数据成熟度,这是AI成功企业的关键属性。研究公司IDC将数据成熟度定义为使用先进的数据质量、编目和元数据以及数据治理流程。该研究公司的CDO办公室调查发现,具有数据成熟度的企业比其他组织更有可能将生成式AI解决方案投入生产。

"组织正在优先考虑数据质量,以提高数据工作者的生产力,并增强AI生成结果的准确性和相关性,"IDC数据智能和集成软件服务副总裁Stewart Bond表示。

此外,同一项IDC研究显示,准备数据以产生最佳AI结果对业务底线有强烈的积极影响,在客户保留方面实现了五倍的改善,在利润、效率和收入方面也有显著增长。

对于Skyworks Solutions的Jayadev来说,使用Databricks技术构建的数据湖仓是数据质量工作的重点。

"数据湖仓在某种意义上是摩天大楼的基础。我们收集每一条数据,然后分类和分组,构建青铜、白银和黄金层级的数据质量,"这位副总裁兼CIO解释道。"我们在数据湖仓中有数PB的数据,每天从工厂和其他来源流入TB级的数据。"

Gallo收获优质数据

Jayadev和Skyworks Solutions并非孤例。据CIO Robert Barrios介绍,葡萄酒和其他饮料的巨型生产商Gallo已实施了数据仓库和数据湖仓来获取AI洞察。该公司构建了SAP S/4HANA数据仓库,分为消费者、财务和采购数据的独立数据集市。此外,Gallo还为非SAP数据实施了AWS Redshift数据湖仓,应用元数据来赋予结构。

Barrios表示,Gallo还在使用生成式AI通过识别标准字符串的偏差和填补数据空白来提高数据质量。例如,当客户数据条目的属性超出常规范围时,生成式AI可以识别正确的属性并替换错误的属性。这同样适用于葡萄酒特征。例如,一款葡萄酒可能被描述为"辛辣",而接受的术语是"胡椒味"。由于它理解上下文,生成式AI会将错误术语更改为正确术语。

对于生成式AI,Gallo使用AWS Bedrock。通过Bedrock,Gallo使用自己的大语言模型而不是公共大语言模型,这样其数据就不会公开暴露。

Gallo的下一步是记录公司如何做决策,然后将这些信息提供给能够自主决策的AI智能体,这是智能体AI的实现。"这与体育或房地产经纪人没有区别。你告诉智能体你想要什么,智能体为你找到它,"Barrios说道。

制药数据在湖仓中安家

Servier Pharmaceuticals将其数据集中在Google Cloud Platform(GCP)Big Query数据湖仓中,为六个企业IT组合提供通用数据平台,服务从研发到产品团队再到企业公关等各个群体,每个群体都在某种程度上实施AI。据Servier Pharmaceuticals(一家治疗癌症和其他难治疾病的制造商)IT主管Mark Yunger介绍,湖仓及其元数据标签还带来了打破数据孤岛的额外好处,否则这些孤岛会分离不同团队使用的数据。

"我们围绕所有这些分散的数据创建了合理的分类法和数据命名法,这样我们就可以将其用于AI算法,确保输入良好的数据。这有助于确保我们的输出是正确的,"Yunger说,并补充说AI分析对销售和营销分析及洞察特别有益。

在制药行业,专利极其重要。这意味着Servier必须勤勉保护自己的专利,同时防范侵犯其他公司的专利。

"我们必须谨慎处理放入公共数据集的内容,"Yunger说。考虑到这种谨慎,Servier在Microsoft Azure上构建了ChatGPT的私有版本,以确保团队在受益于AI工具访问的同时保护专有信息并维护机密性。Yunger表示,生成式AI实施用于加速内部文档和电子邮件的创建。

此外,制药试验中可能出现的个人数据必须得到极其谨慎的处理,以符合欧盟AI法案的要求,该法案禁止组织在未经个人同意的情况下主动监控个人。

风险很高。"很多事情可能会严重出错。如果你有合规问题,可能会面临重大罚款。你必须确保按规则行事,"Yunger说。

AES从源头汲取能源数据

据AES首席数字官Alejandro Reyes介绍,专注于可持续能源的发电公司AES在GCP中构建了CEDAR,这是一个用于AI的数据平台,聚合和管理来自其清洁能源站点的运营数据。

"CEDAR在数据收集和定义方式上创造了和谐。它使我们整个产品线保持一致,"Reyes说。Reyes解释,使用数据编目工具Atlan和基于机器学习的数据质量工具Qualytics,CEDAR对数据应用标准,使其能够作为AI的单一来源,无论是由财务、工程、维护还是其他企业单位使用。

AES的Farseer为该公司赢得了2024年CIO 100奖,这是一个基于AI的平台,利用CEDAR数据让AES了解市场需求、预期天气条件、能源容量和预期收入。据Reyes介绍,这些信息使AES能够确定向市场投放多少能源以及如何定价。此外,AES正在使用Google Gemini和Microsoft Copilot,并正在探索智能体AI来处理后台流程。

一切都建立在数据基础之上

虽然数据仓库、数据湖和数据湖仓远非新事物,但从AI中获得商业价值的推动正在将明亮的聚光灯照在它们身上——这要求一流的数据治理。

"AI不是传统IT,而是一种变革工具——每个人都想要访问它。挑战在于建立治理,这样我们就可以为业务开放数据和AI平台,以构建所有用例,"Skyworks Solutions的Jayadev说。

据Servier的Yunger表示,仅仅希望成功是不够的——需要熟练的IT专业人员。在他开始数据治理项目以来的18个月里,Yunger说弥合人才缺口是他面临的最大障碍。"这是人才——能力和技能组合——以及流程的结合。你需要找到合适的人才来帮助推动和加速这些步骤。"

为了实现他所说的"可持续AI",AES的Reyes建议需要取得微妙的平衡:实施数据治理,但要以不破坏工作模式的方式进行。他建议确保公司的每个人都理解数据必须被视为宝贵资产:鉴于AI的高风险,有充分的理由必须准确编目和管理数据。

Gallo的Barrios强化了单一、强大数据基础的理念。"如果你有一堆不同的基础,它可能会变成纸牌屋。"但仅有基础是不够的。Barrios断言,让业务方面参与进来至关重要。

"与业务合作,确保他们有指标显示你的表现如何,"他建议道。"你可能拥有最棒的数据湖仓,但人们必须使用它。"

来源:CIO.com

0赞

好文章,需要你的鼓励

2025

06/17

09:40

分享

点赞

邮件订阅