毫无疑问,数据为当今人类使用的、最为先进的应用程序提供了支撑,特别是人工智能和机器学习应用程序,这两者都高度依赖高质量的相关数据。事实上,人工智能方法论(尤其是CPMAI方法论)的最佳实践就必须理解人工智能项目必需的数据,并且为人工智能技术的使用做好数据准备,这是必需的基础。
律商联讯(LexisNexis Legal & Professional)的首席数据官 Rick McFarland 在即将于 8 月 5 日举行的人工智能虚拟活动中分享他的见解——重视数据在人工智能和高级分析系统中的作用。在接受福布斯采访时,他分享了一些看法,谈到了在他所在的组织中,数据在人工智能项目中的作用。
问:你使用了哪些创新性的方法,用高级数据分析来使LexisNexis受益?
Rick McFarland:作为 LexisNexis Legal & Professional 的首席数据官,我认为在高级数据分析方面,我们采取的一种比较重要也颇具创新性的做法是提高数据的利用率和质量。例如,我们大部分的数据都是基于文本的(例如法律摘要、诉状、动议、判例法、案卷和其他文件)。处理处于原始状态的这一类文本数据非常具有挑战性,这项工作很复杂,而且很琐碎。这就是为什么许多数据科学家和分析师对这类工作避之不及的原因。但是,通过使用 BERT 等高级 NLP方法将这些数据转换为嵌入向量,我们创建了一套全新的数据资产,整个组织内的数据科学家和分析师们可以利用这些资产为我们的产品创建模型和功能。想象一下,把文本数据转换为嵌入向量,从而使之成为数值类数据。例如,每个单词和句子都可以用一个数字向量表示;你可以把它想象为电子表格中的一行数字。这些数值向量从数学角度来说更容易使用,也可被用于开发分类模型、实体提取模型、问答——用途可以说不胜枚举。
问:你是如何确定从哪些问题领域开始你的数据分析和认知技术项目的?
Rick McFarland:在我们工作的专业级人工智能领域,即法律和医学领域,我们面临着一些非常独特的挑战,而消费级人工智能开发人员不一定会遇到这些问题。在我们的领域里,开发人员和客户受过的教育可以说是大相径庭。例如,一位律师(我们的客户)在学校里经过了多年的学习——包括研究生阶段的学习——以掌握一些非常高级而特定的技能,有的人甚至会认为这是掌握了一门新语言(如果你曾阅读过法律文件,就会知道我在说什么!)与之类似,数据科学家们也花费了很长的时间来学习他们的技能,并且通常拥有计算机科学专业的博士学位,而且还学习了一、两种编程语言。由于这两个职业处于教育领域的不同方向,两者之间的沟通和业务理解往往会非常困难。因此,在LN,数据科学家和开发团队是与我们的产品团队紧密配合的。我们的产品团队——其中有一些人是律师,和我们的客户保持着密切的联系,不断地进行调查,并通过焦点小组来理解他们的需求。他们也是与开发人员和数据科学家合作的专家。 这三个职业类别(产品、开发人员和数据科学家/分析师)组成了我们的标准团队。我们依靠这种密切联系让我们始终聚焦于客户的主要问题领域。
问:在数据和人工智能方面,你有哪些独特的机会?
Rick McFarland:人工智能的好坏取决于训练和馈送给它的数据。LexisNexis 拥有世界上最大的法律数据存储库之一。但是,就如同所有的数据科学家都会告诉你的那样,拥有原始数据是成功的一半。我们拥有的数据的特别之处在于,自从计算机被发明出来之后,我们已经有数千名律师一直在这个庞大的语料库上进行丰富、总结、实体识别、映射引文等工作。因此,我们也具备了数据科学家的另一半要求:我们有 PB 级的训练数据。我们拥有人工智能开发所需的全部原材料。我们的数据科学家几乎拥有无限的机会来创建人工智能产品和功能。我们几乎可以在几周内将任何“人工智能方面的想法”从概念变为概念验证(POC)!
问:你能否分享一些在采用人工智能和机器学习方面遇到的挑战?
Rick McFarland:在专业领域(例如法律、医学和科学领域),人工智能和机器学习的门槛非常高,因此,在这些领域里,人工智能的采用率远低于消费市场。 这些职业都牵涉到人们的生命或者自由,一旦犯错,会产生非常严重的后果。对于这些领域里的专业人士来说,依赖人工智能应用程序意味着它必须表现良好并且必须始终保持准确。如果有一个回答是错误的,就会破坏对该工具的信任——而要想恢复这种信任则需要很长时间,甚至也许完全不可能。对于LexisNexis来说,要想面向专业市场推出任何人工智能工具,都必须达到这个高标准。
我们在专业级的领域里做了一些很独特的事情,消费级的技术供应商们恐怕不会这样做。绝大多数人工智能开发人员都很熟悉用于评估模型质量的“留出法(holdout)”样本方法——留出的数据是从训练数据中随机选出的,并对开发人员隐藏,这些数据不会被用于训练过程,而是被用来评估最终模型的质量好坏。在专业级流程中,我们还准备了另一个保留数据集,我们将其称为“白金数据(Platinum Data)”。在我们的问答过程中,这是一组当前模型正确回答的问题。事实上,这些答案被我们的中小企业和客户评为“最佳”。每当我们准备发布一个新模型的时候,我们都会用这些白金问题来检验新的模型,并检查它生成的答案。如果新系统给出的答案和白金数据不同(或者比白金数据更糟糕),我们就不会把该模型投入生产。你也许已经猜到了,随着新版本的不断推出,白金数据一直都在增长。我们不仅仅提供正确答案——我们还会确保这些答案的一致性,这对于法律行业来说非常重要,因为法庭案件有时会持续数个月甚至数年。
问:在LexisNexis,分析、自动化和人工智能是如何配合的?
Rick McFarland:在 LexisNexis,这三部分功能是如何运行的可以用一个三向韦恩图来表示。在不同的情况下,分析可能会被独立使用,也有可能和人工智能结合使用,或者与自动化结合使用,或者三者结合在一起使用。这三者之中的每一个都是这种情况。我们这三部分功能都分别拥有自己的团队领导,每一位领导都在自己管理的领域内拥有很高水平的技能,他们也经常在项目上彼此合作。例如,自动化团队就会与人工智能团队合作,为我们的客户支持团队开发聊天机器人,以帮助他们减少对人工支持的需求,类似的合作并不少见。与之类似,分析团队将与人工智能团队合作开发一个交叉销售模型,并将其部署在分析面板上,以帮助我们的销售团队,为他们提供建议。
问:你如何处理关于数据使用的隐私、信任和安全问题?
Rick McFarland:我们的大部分数据都来自公开来源(即判例法、案卷等),我们利用了 50,000 多个来源。此外,我们将其数字化和标准化,使其易于阅读和搜索。律师们使用这些数据为他们的客户服务,我们认为我们的角色是使法律易于理解和阅读。这支持了我们通过推进法治使世界变得更加公正的全球愿景。
问:你采取了哪些做法来培养具备数据素养并做好准备迎接人工智能的劳动力?
Rick McFarland:在LexisNexis,我们特别引以为豪的一件事就是我们的高级技术课程(Advanced Technical Curriculum)。从我们开始聘请数据科学家的时候开始,就发现绝大多数的数据科学家接受的训练都是在消费级的人工智能开发方面。这就是学校和培训课程会教授的内容,因为这个领域有大量的数据和示例。今天,哪有一位数据科学家没有用推特的数据制作过至少一个模型呢?因此,我们创建了高级技术课程(Advanced Technical Curriculum),让它作为数据科学家的“研究生院”,教会他们如何开发专业级的人工智能。
与大多数大学一样,我们的课程也有一个课程大纲,级别从 100 级到 400 级不等。我们的 100 级课程可供所有人使用,我们将这些课程重点放在对人工智能开发至关重要的平台和工具上。我们有 AWS 和 Azure 培训,因为我们了解到大多数数据科学家在如何使用这些核心平台方面知识程度不同,我们需要我们的员工理解我们的客户设定的专业级别要求,同时还要学习如何使用这些平台。我们的 200 级课程专注于特定领域和核心语言,例如Python。我们的 300 级课程则专注于人工智能方法。由于我们主要处理法律和文本(非结构化)数据,因此我们提供文本处理、机器学习、自然语言处理 (NLP) 和语境嵌入(例如 BERT)方面的课程。我们的 400 级课程汇集了所有内容,并专注于应用这些高级人工智能构建块来开发人工智能功能和产品。因此,这些课程会教授如何构建专业级聊天机器人、推荐系统、学习排名模型等。一旦我们的内部学生完成他们的高级技术课程(Advanced Tech Curriculum Education)教育,他们将获得 LexisNexis 专业级数据科学认证,并将开始参与开发下一个法律人工智能工具。
问:对于未来几年,你最期待哪些人工智能技术?
Rick McFarland:我真正期待的是真正星际迷航式的“语音智能”,它可以回答我们提出的任何问题。它将理解口语和习语。它应该能够轻松地回答一般的日常问题,也能够回答复杂的科学和专业问题,一切都游刃有余。它还可以理解问题的语境——在我提到“Coach”的时候,它应该能够分辨出我想说的是一个人还是Coach这个品牌。如果这个语音智能能够根据我的问题和语境猜测(甚至是预测)出我的最终目标,并且不需要我开口要求就提供一些额外的信息,以帮助我实现自己的目标,那么,真正的飞跃就来到了。那将是真正令人兴奋的。
在即将在8月5日举办的Data for AI 虚拟活动中听取更多Rick McFarland的见解吧。
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
研究表明,现有的公开 AI 模型在描述大屠杀历史时过于简单化,无法呈现其复杂性和细微之处。研究人员呼吁各相关机构数字化资料和专业知识,以改善 AI 对这段历史的理解和表述。他们强调需要在 AI 系统中加入更多高质量的数据,同时在审查和信息获取之间寻求平衡。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。