陶氏化学公司是世界上最大的化学品生产商之一,业务遍及约160个国家,全球拥有超过37000名员工。但随着分析和AI成为在现代商业世界中保持竞争力的赌注,这家总部位于密歇根州的公司发现他们很难把数据利用起来。
“我们有数据科学家,业务问题通过数据更容易解决,”陶氏化学数据和分析平台IT总监Brandon Schroeder表示。“我们没有一个集中的地方来做这件事,而且在管理数据方面确实做得不好。我们非常注重保护数据安全,但没有花太多时间让数据易于使用。”
陶氏的规模导致数据集庞大而多样,孤立而繁琐。例如,他们很难将制造、商业和创新数据结合起来进行分析以产生洞察,而缺乏公司治理模式意味着即使他们可以整合数据,其可靠性也值得怀疑。
“我们正在研究所有潜力,为业务问题提供洞察的时间太长了,”Schroeder说。
Brandon Schroeder,陶氏数据与分析平台IT总监
因此,在2022年该公司着手通过一个名为“Integrated Data Hub”的项目来改变这一现状。该项目旨在大幅提高数据的可发现性、可访问性、质量和可用性。但陶氏并不仅仅着手创建一个集中式数据存储库,其目标是改变所有员工与数据交互和关联的方式,使整个组织能够将数据和分析作为工作方式的一个组成部分,该项目旨在实现四个主要成果:
“我们对集成数据中心做出的软承诺之一,就是降低数据和分析的门槛,而数据分析素养是其中很重要的一部分,”Schroeder指出,陶氏可以将所有技术和数据落实到位,以便公司的200名数据科学家可以使用,“或者我们可以培训公司各个级别的所有人,以利用我们所有的这些工作成果。”
知识就是力量
陶氏IT总监、客户合作伙伴关系、企业数据和分析Nathan Wilmot表示,素养计划涵盖了从教授如何使用生成式AI和构建数据可视化,到更好地管理数据和使用数据做出决策等所有内容。
“陶氏在数据分析和AI领域正在发生一场文化变革,我们在开发集成数据中心的同时,还开发了数据和分析素养计划,旨在提高公司内每个人在特定角色中利用和处理数据的能力,使其能够在正确的环境中使用和处理数据。无论你是数据生成折还是消费者、分析者、决策者——无论是什么,你都拥有使用最现代技术的恰当技能,能够尽可能高效地应用数据和分析。”
Nathan Wilmot,陶氏IT数据客户合作总监
第一步是获得对项目的支持。Schroeder表示,获得良好的、干净的数据,这对于利用AI来说至关重要,因此很容易说服高级业务领导层,集成数据中心是一个必要的项目。不过,他说,在像陶氏这样规模的公司中,单打独斗很难做成任何事情,因此,在公司业务、IT部门和陶氏其他职能部门寻求合作至关重要。安全部门也是一个特别有价值的合作伙伴。
Schroeder说:“当你把陶氏127年来积累的知识以结构化和非结构化数据的形式保存起来,放在一个更容易访问和查找的地方时,这可能会让人感到害怕,你必须制定数据隐私法、安全法规和控制措施。与我们的信息系统安全组织建立牢固而深入的合作伙伴关系,这是我们能够走这条路一个巨大的催化剂。我们不得不重新思考我们如何对待我们的一些云原则,以及如何处理数据。”
陡峭的学习曲线
然而一开始,团队就犯了一些错误。Schroeder说,他们试图走得太快,想在前期就解决太多难题。
“我们试图跳过一些数据治理方面,想着以后再回来处理,我们立即就看到了这么做的痛苦,当我们推断出整个组织会是什么样子时,我们退缩了。”
错误的开始使得他们不得不进行自我反省。
“如果你不知道谁拥有数据,不知道数据被归类为什么,数据在哪里,也不知道真正拥有数据的人是否认同,那么所有这些其他事情都只是浪费时间,”他说。
Wilmot说:“这是一个过程,需要时间,组织越成熟,挑战就越大。但你必须这样做,才能在数据分析、AI、生成式AI以及所有后续出现的新兴技术方面取得成功。技术发展如此之快,你不能不这样做,才能指望取得成功。”
文化问题
首先要重新关注数据治理,但仍有重大问题需要克服,尤其是项目给组织带来多大的变化,以及变化的程度。Schroeder的团队采用了中心辐射模型来实施综合数据中心的运营实践,需要共同承担责任和所有权,具备现代技术技能和高度的数据素养。来自业务和职能领导的认可也至关重要。
Schroeder说:“挑战主要是在文化方面,技术方面很简单。我们作为数据所有者要对数据负责,有时这会带来一些必须完成的额外任务。你必须让每个人都相信这是个好主意,以及承担这项额外工作的重要性。从根本上讲,这一切都是关于管理变革。”
他的团队与整个组织的专家展开密切合作,确保综合数据中心能够满足他们的长期需求,包括选择一个可以与整个组织使用的下游分析功能集成技术平台,以及开发一个治理模型,以确保适当的数据所有权和管理权,而不会给已经捉襟见肘的资源带来过重的负担。该团队还专注于与业务一致的用例,以帮助确定工作的优先级,Schroeder说,这确保了进入数据中心的数据能够得到适当的管理,并提供真正的价值。
他的团队将这项工作与培训和支持模式结合起来,包括启动了一个综合数据中心认证流程,该流程利用基于角色的方法,为个人提供与他们作为数据科学家、数据工程师、数据分析师和数据所有者的工作相符的培训。
团队从2023年开始将数据加载到Integrated Data Hub,而且几乎立即出现了添加数据产品的高需求。Wilmot指出,自从创建了Integrated Data Hub依赖,数据准确性一直在加速提升。
“我们看到准确率始终高于90%多,比我们刚开始时要高出很多,”Wilmot说。
此外Schroeder表示,洞察时间得到了大幅改善。他追求的目标之一,是他称之为“一整天的数据科学”,即数据科学家可以在24小时有了一个想法,就可以访问到所有所需的数据、平台和环境。
“我们还没有做到这一点,但这就是目标,”他说。
好文章,需要你的鼓励
Roig Arena 将于 2025 年 9 月在瓦伦西亚开业,借助 Extreme Networks 的 6GHz Wi-Fi 与数据分析技术,实现无缝运营与个性化观众体验,打造全天候活动中心。
麦吉尔大学研究团队开发的LLMSYNTHOR框架创新性地将大语言模型用于高质量数据合成,解决了传统方法在处理复杂数据时的局限性。该框架将LLM视为非参数copula模拟器,通过"LLM提案采样"机制提高效率,并在摘要统计空间中迭代对齐真实与合成数据。实验证明LLMSYNTHOR在电子商务、人口统计和城市移动性等领域生成的合成数据具有卓越的统计保真度和实用价值,为隐私敏感领域的研究和决策提供了宝贵工具。
OpenMamba 是一款意大利独立滚动更新的 Linux 发行版,基于 Fedora 工具构建,提供 KDE Plasma 与 LXQt 桌面。它采用最新组件和标准打包工具,运行稳定且易用,适合规避主流系统限制的用户。
这篇论文介绍了首个开源的验证码测试平台Open CaptchaWorld,专为评估多模态大语言模型智能体的交互式推理能力而设计。研究团队开发了包含20种验证码类型的综合测试环境,并提出了"验证码推理深度"这一新指标来量化任务复杂度。实验结果显示,即使最先进的AI模型成功率也仅达40%,远低于人类的93.3%,揭示了当前技术在处理多步交互任务时的显著局限性。