尽管许多组织已经通过少量成功的概念验证(PoC)展示了生成式 AI 的价值,但在这些 PoC 基础上进行扩展并将新技术应用于业务的其他部分,只有在生成 AI 准备好的数据成为标准做法后才能实现。Gartner 最近预测,60% 的 AI 项目如果没有 AI 准备好的数据,将在明年被放弃,这一预测揭示了 IT 领导者需要立即解决的潜在问题。
对于许多 CIO 来说,为一个 AI 项目准备数据都是一项艰巨的任务。Rimini Street 的首席技术官 Eric Helmer 表示:“在他们踏上 AI 之旅时,许多人发现他们的数据是垃圾。他们在数百个不同的系统中不知道数据在哪里。而当他们找到数据时,往往不知道这些数据是否处于可以被 AI 使用的状态。这往往会阻碍他们的 AI 计划。”
为了应对即将到来的支持业务中 AI 项目使用请求的浪潮,CIO 应采取以下三步,确保让数据为 AI 做好准备成为标准做法。
放弃使用传统 IT 进行 AI
“最终目标是拥有 AI 准备好的数据,这意味着具有正确结构的高质量和一致性数据,能够在 AI 模型中有效使用,并为特定应用程序产生预期结果。”EY 的全球 AI 部门负责人 Beatriz Sanz Sáiz 说道。AI 准备好的数据不仅仅是 CIO 需要为一个应用程序生成的,他们需要为所有需要企业特定智能的应用程序生成。
不幸的是,许多 IT 领导者发现,使用标准数据实践和传统 IT 硬件和软件无法实现这一目标。“在一个庞大的、分散的系统中清理数据并使其对 AI 有用几乎是不可能的。”Helmer 说。“如果你进入一个 HR 系统并删除重复记录或以其他方式清理数据,可能不会将更改传播到所有相关的数据存储中,从而导致数据不一致。”
为了定期训练特定于其业务的用例所需的模型,CIO 需要建立 AI 准备好的数据管道,结合新的方法来收集、清理和编目企业信息。Gartner 最近对数据管理领导者进行的进一步研究表明,大多数组织尚未达到这一点。在超过 1,200 个组织的研究中,三分之二的组织要么没有适合 AI 的数据管理实践,要么不确定是否有。因此,计划增加 AI 采用的 IT 领导者显然需要重新思考他们如何管理数据。
到目前为止,大多数组织一直依赖已经在支持生产工作负载方面苦苦挣扎的传统系统。根据 Hitachi Vantara 的 AI 首席技术官 Jason Hardy 的说法,现在随着 AI 工作负载的增加,导致了许多影响日常运营的问题。CIO 需要改造他们的基础设施,不仅要通过一组新的接口呈现大量数据,还要处理生成式 AI 产生的前所未有的新数据。“AI 革命正在推动所有行业的数据中心现代化。”Hardy 说。
根据 Sáiz 的说法,现代化已经在 2018 年左右大规模开始。新技术的出现使组织能够开始改变其数据基础设施和实践,以满足对大规模结构化和非结构化数据集不断增长的需求,以支持分析和机器学习。他们开始使用数据虚拟化,通过将数据消费与来源分离来减少对大型数据仓库的需求。现在随着代理 AI 的出现,对高质量数据的需求比以往任何时候都增长得更快,使现有趋势更加紧迫。
使用 AI 改善数据,用知识提升 AI
好消息是,AI 是解决方案的一部分,Sáiz 补充道。例如,生成式 AI 可用于生成合成数据,其他形式的 AI 可用于帮助分析和提高数据质量。一些组织使用 AI 通过识别不在合理范围内的值来分析数据分布,然后填补缺失值。AI 还可以帮助工程师定位问题数据集,应用不同技术来确定给定值的现实概率。“我们看到‘AI 用于数据’是目前企业中 AI 的最大应用之一。”Sáiz 说。“数据革命和 AI 革命同时发生,产生了双赢的局面。”
AI 还可以通过拥有一个使用代理 AI 管理分散基础设施的集中智能来实现更分散的数据基础设施。成千上万个代理可以执行标准并确保数据一致性,这也是公司在数据基础设施方面面临的最大挑战之一。
例如,AI 可以帮助确保特定客户的记录系统在所有系统中(包括 CRM、联系中心软件和财务应用程序)保持一致。“为了保持一致性,每当客户与联系中心或网络进行交互时,所有系统都会在几乎实时的情况下进行更改。”Sáiz 说。“过去你可能会有更多的延迟和大量的人工检查,现在这一切都由 AI 驱动,AI 不断检查状态和主数据集,以根据智能确定是否需要在整个系统中更新记录。”
根据 Sáiz 的说法,知识比数据更重要,因为它有助于解释数据。在数据基础设施之上可以构建一个知识层,以提供上下文并减少幻觉。“如果有人在电信行业运行预测模型,变量、输入和结果将与在金融预测中运行相同模型时不同。”她说。“你越专注于知识,你的 AI 就越准确。”
采用迭代方法进行转型
一些 IT 领导者被面前的挑战压得喘不过气来,认为他们需要在开始 AI 之旅之前将所有数据都调整到完美状态。但 Hardy 说,更好的方法是以迭代的方式改变他们的数据管理实践和基础设施。“一旦你将基础原则和实践到位,你就可以一次一个项目地进行转型。”他说。
根据 Hardy 的说法,基础原则之一是网络安全,这是 CIO 的主要关注点。IT 领导者需要确保用于训练模型的数据不仅不违反任何数据隐私规则,而且模型生成的响应与用户的访问权限一致。“AI 系统需要知道是谁在提问,以便返回正确级别的信息,并且不会暴露额外的信息。”Hardy 说。
尤其是在 AI 作为云服务提供时,还需要减轻暴露知识产权的风险。“根据你如何与服务接口——以及数据类型、主权要求、敏感性要求和法规——你可能会决定某些数据永远不应该在云中。”Hardy 补充道。“制定指南将帮助你根据具体情况决定哪些数据留在本地,哪些数据进入云。”
根据 Helmer 的说法,应建立一个管理机构以帮助确保遵循最佳实践。任何开发或部署 AI 应用程序的人都必须遵循一套不仅与数据质量一致的规则,还包括保留政策、数据依赖政策和所有适当的法规。
“在旅程中,决定你希望每个项目实现的结果。”Hardy 说。“然后找出你需要的数据,以及你需要与哪些系统接口,以实现该结果。与其在看到任何回报之前试图全面解决问题,不如一次专注于一个结果的数据转型。”
好文章,需要你的鼓励
随着数字化时代的到来,网络安全威胁呈指数级增长。勒索软件、AI驱动的网络攻击和物联网设备漏洞成为主要威胁。企业需要建立全面的风险管理策略,包括风险评估、安全措施实施和持续监控。新兴技术如人工智能、区块链和量子计算为网络安全带来新机遇。组织应重视员工培训、供应链安全、数据治理和事件响应能力建设。
滑铁卢大学研究团队开发出ScholarCopilot,一个革命性的AI学术写作助手。该系统突破传统"先检索后生成"模式,实现写作过程中的动态文献检索和精确引用。基于50万篇arXiv论文训练,引用准确率达40.1%,大幅超越现有方法。在人类专家评估中,引用质量获100%好评,整体表现优于ChatGPT。这项创新为AI辅助学术写作开辟新道路。
AWS Amazon Bedrock负责人Atul Deo正致力于让人工智能软件变得更便宜和更智能。他在12月re:Invent大会前只有六个月时间来证明这一目标的可行性。Deo表示AI领域发展速度前所未有,模型每几周就会改进,但客户只有在经济效益合理时才会部署。为此,AWS推出了提示缓存、智能路由、批处理模式等功能来降低推理成本,同时开发能执行多步骤任务的自主代理软件,将AI应用从聊天机器人转向实际业务流程自动化。
哥伦比亚大学研究团队发布NodeRAG技术,通过异构图结构革新智能问答系统。该方法将文档信息分解为7种节点类型,采用双重搜索机制,在多个权威测试中准确率达89.5%,检索效率提升50%以上,为智能信息检索技术带来重大突破。