当IT领导者们试图从企业收集的数据中获取商业价值的时候,他们面临着无数挑战。或许最不为人知的是,没有很好地利用那些已经生成的、频繁保存的、但却被很少使用的数据,正在让他们错失各种机会。
这种以物理暗物质命名的所谓“暗数据”,是指在业务开展过程中经常收集到的信息:由员工、客户和业务流程产生;由机器、应用和安全系统生成为日志文件;出于合规目的必须保存的文档,以及不应该保存但仍然保存了的敏感数据。
根据Gartner称,企业信息领域的大部分是由“暗数据”组成的,许多企业甚至不知道他们拥有多少暗数据。存储暗数据会增加合规性和网络安全风险,当然,也会增加成本。
弄清楚你有哪些暗数据、保存在哪里、其中包含哪些信息,这是确保暗数据有价值的部分是安全的、且不应该保留的部分被删除的一个重要步骤。但挖掘这些隐藏数据的真正优势,是要让企业真正地从这些数据中受益。
但挖掘暗数据并非易事。暗数据有很多种格式,有可能是完全未格式化的,例如存在于扫描文档或者音频、视频文件中。
下面让我们来看看这些企业组织是如何把暗数据转化为商机的,以及业内人士给那些希望利用暗数据的IT领导者提供的建议。
来自赛车手的编码音频
五年来,Envision Racing收集了100多场电动方程式比赛的录音,每场比赛都有20多名车手参加。
咨询公司Genpact帮助Envision Racing利用这些数据,该公司全球分析负责人Amaresh Tripathy表示:“任何人都可以在开放频率上收听这些广播流。”
此前,这支来自英国的赛车队的赛车工程师试图在比赛期间实时使用这些音频传输,但车手使用的代号和首字母缩略词使得他们很难弄清楚所说的内容以及如何使用这些音频,因为Tripathy说,了解其他车手在说什么可以帮助Envision Racing的车手制定赛车策略。
“比如什么时候使用攻击模式,什么时候超车,什么时候踩刹车,”他说。
Envision Racing还收集自己车队车辆传感器的数据,例如轮胎、电池和刹车,并从供应商那里购买外部数据,例如风速和降水量。
Genpact和Envision Racing展开合作从这些数据流中挖掘价值,利用自然语言处理构建深度学习模型来分析这些数据。从准备数据管道到提取数据、过滤掉噪音,再到进行有意义的对话,这个过程花了六个月的时间。
Tripathy说,人类需要5到10秒才能弄清楚他们听到的内容,这种延迟使无线电通信变得毫无用处。由于人工智能模型的预测能力和洞察力,现在他们在一两秒之内就能做出响应。
7月,在纽约举行的ABB FIA电动方程式世界锦标赛上,Envision Racing车队分别获得了第一和第三名,Tripathy将这一结果归功于利用了所谓的暗数据。
暗数据黄金:人工生成的数据
Envision Racing的音频文件是人类生成型暗数据的一个例子,这种数据主要是供其他人使用,而不是被机器使用。数据归档平台提供商ZL Technologies联合创始人、首席执行官Kon Leong表示,这种暗数据对企业来说是非常有用的。
他说:“这种数据对于理解企业所有要素是非常有用的,包括文化、绩效、影响力、专业知识和敬业度。员工每天都在分享绝对海量的数字信息和知识,但到目前为止,这些信息和知识基本上都还没有得到开发和利用。”
电子邮件、消息和文件中包含的信息可以帮助企业组织获得洞察力,例如谁是组织中最有影响力的人。Leong说:“企业把80%的时间都花在了沟通上,但是只把1%的时间花费在数据分析上。”
处理人工生成的非结构化数据是极具挑战性的。例如,通常不会设置数据仓库来处理这些信息,而且收集这些信息可能会给企业带来不得不应对的新问题,例如合规性、隐私和法律等等。
Leong说:“这些治理能力在如今的数据湖概念中并不存在,事实上,通过把数据收集到数据湖中,会生成另一个孤岛,这会增加隐私和合规风险。”
相反,企业可以把这些数据保留在当前所在的位置,只需添加一层索引和元数据,实现可搜索性。他说,让数据保持原状,也能让数据保留在现有的合规结构中。
有效的治理是关键
解决暗数据价值和来源存疑的另一种方法,是从可追溯性开始着手。
《Fundamentals of Data Observability》一书作者、数据可观察性提供商Kensu的创始人Andy Petrella表示:“如今,暗数据被认为是一种可以利用的、尚未开发的资源,这是一个积极的行业趋势。”
他说:“利用暗数据的挑战在于人们对暗数据是信心不足的,尤其是在哪里、以何种方式收集这些数据。可观察性可以让数据沿袭变得更透明、具有可追溯性。可追溯性让数据质量检查成为可能,使人们有信心使用这些数据来训练AI模型,或者根据这些数据带来的智能性采取行动。”
StoneTurn是一家专注于监管、风险和合规问题的全球咨询公司,该公司董事总经理Chuck Soha认为,处理暗数据的常用方法是把所有内容都放入数据湖中,而这会带来重大风险。
他说,在金融服务行业尤其如此,多年来该行业一直是把数据发送到数据湖中。“在典型的企业中,IT部门把所有可用的数据与一些基本元数据一起转存到一个地方,并创建与业务团队共享的流程。”
这适用于那些内部拥有必要分析人才或者为特定用途引入外部咨询顾问的业务团队,但在大多数情况下,这些举措只是其中一个部分,Soha说。
“CIO们从以前的不知道他们还有什么是不了解的,转变为知道他们有哪些是不了解的。”
相反,企业应该从数据治理开始着手,去了解他们都有哪些数据,存在哪些问题,其中数据质量是首要因素。
“利益相关者可以决定是对这些数据进行清理和标准化,还是从更好的信息管理实践重新开始着手,”Soha认为,把精力投入在从那些包含有不一致或冲突信息的数据中提取洞察力,是一种错误的做法。
Soha建议,把各个业务部门内部已有的、良好的运营数据联系起来,弄清楚这些数据之间的关系,有助于产生快速而有用的洞察,而且也不需要立即查看任何暗数据。“这么做还会让你有机会去优化你应该从暗数据的哪些方面开始着手。”
最后他说,AI在帮助利用非结构化数据方面也是非常有用处的。“人类通过使用机器学习和AI技术可以查看只有1%的暗数据,并对这些暗数据的相关性进行分类,然后强化学习模型可以快速生成对剩余数据的相关性评分,从而优先考虑需要更仔细地查看哪些数据。”
利用AI提取价值
亚马逊Textract、微软Azure认知服务、IBM Datacap、以及谷歌Cloud Vision、Document、AutoML和NLP API都是常见的、用于处理暗数据的AI解决方案。
Tripathy说,在Genpact与Envision Racing的合作中,Genpact在内部对机器学习算法进行了编码,这需要Docker、Kubernetes、Java、Python、以及NLP、深度学习和机器学习算法开发方面的知识,而且整个过程是由MLOps架构师管理的。
遗憾的是,这些技能是很难获得。Splunk去年秋季发布的一份报告显示,受访的1300多名IT和业务决策者中,只有10%-15%的受访者表示,他们所在的企业组织正在使用AI来解决暗数据的问题,缺乏必要的技能是利用暗数据的主要障碍,仅次于暗数据本身的数量。
一个问题(和一个机会)正在浮出水面
暗数据仍然是一个充满风险和机会的宝库。根据行业的不同,企业的暗数据估值从40%到90%不等。
由Quest赞助的、Enterprise Strategy Group在7月份发布的一份报告显示,平均47%的数据是暗数据,有近1/5的受访者表示他们的数据中有70%以上是暗数据。Splunk的调查也呈现出类似的结果,平均55%的企业数据是暗数据,1/3的受访者表示,他们有75%或更多的数据是暗数据。
而且这个情况在好转之前可能会变得更糟,因为有60%的受访者表示,他们有超过一半的数据根本没有被捕获,甚至他们不理解其他大部分数据为何存在于此。随着更多数据被发现和存储,暗数据的数量也会持续增加。
对于CIO们来说,现在是时候去制定暗数据有关计划、着眼于充分利用任何有希望为业务创造新价值的暗数据了。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。