至顶网CIO与应用频道 07月19日 北京消息(文/编译):首席数据官(CDO)正在迅速摆脱后台数据质量和治理任务的阴影,走到企业计算战略的前线。
这个趋势正在变得越来越明显,特别是本周四Gartner新研究报告的发布,以及CDO们在一年一度麻省理工学院CDO和信息质量研讨会上分享的故事。
财富500强企业中的CDO人数已经从5年前的寥寥无几,增加到今天的300多人,但是到目前为止CDO的角色都不符合传统的定义。Gartner研究发现,CDO大多来自于广泛的背景和行业,没有标准的技能或者经验水平。
例如,在Gartner的CDO调查中有近30%的受访者是女性,女性人数远远高于其他信息技术领域。“这让我对CDO的多样性感到惊讶,”Gartner研究总监Valerie Logan这样表示。
更明显的趋势是,CDO自身正在成为战略家。Gartner研究发现,有2/3的CDO表示他们现在负责数据和分析项目,以及将数据运用于新业务解决方案中的责任。提到最多的职责,就是成为引领企业组织更好地将数据用于业务战略中的领头人和变革推动者。“我们很惊讶地看到,CDO有71%的时间用在了创新上。”
这是与去年调研相比的一个变化,去年的调研显示,很多CDO仍然在忙于将企业现有的数据组织起来。“在过去几年中,有太多的支出花在了与监管相关的事情上,”TD Bank NA美国的CDOJoan dal Bianco这样表示。“我认为企业正在更加战略性地使用数据。”
这一点得到了Mark Ramsey的认同,他是制药商葛兰素史克(GlaxoSmithLine PLC)的CDO。“CDO的角色真的转向进攻了。”
金融危机让很多公司采取了错误的数据战略,让CDO专注于组织数据而不是对数据采取行动。Ramsey表示:“治理和数据质量是使用数据导致的损耗。没有一家是围绕这一点创建企业数据模型和变革企业的。这必须是机器的一部分。”
随着很多公司看到像Google和Amazon这样以数据为驱动的企业吸引到了传统行业,他们很快就意识到他们所在的领域已经发生变化。
“我们正在扮演着主动进攻的角色,”通用公司CDO Christina Clark表示,通用公司正在经历着大规模的数字化转型。“我们正在考虑如何控制数据,这样数据就不会牢牢控制我们。”
事实上,通用采取了一种“数字线程”的理念,也就是让数据成为流程的核心,此外这也是让数据由那些可以更快速利用的人来掌控,用更灵活的、可以处理更多种数据的、使数据更可用的大数据湖来取代数据仓库。Clark表示:“这是把数据提供给那些需要的人的一种更简单的方式。”
转为攻势需要一系列新的优先级和技能。有CDO表示,他们的职责正在从看守员和图书馆员转变为教练和布道者。美国运通公司CDO Venkat Varadachary表示:“如果你想营造一个以数据为驱动的文化,那么提高数据智商是至关重要的。”他指出,美国运通公司CEO最近在问他要各种公司正在使用的机器学习算法,这样他可以与董事会和利益相关者在这方面聊得更深入一些。
Gartner研究副总裁Mike Rollings表示:“影响力是CDO这个角色的一个重要组成部分。当你建立了CDO这个角色的时候,你就改变了企业组织内的监管规则。这会改变行为。很多CDO都失败了,因为他们没有考虑到太多关于组织性变化的问题。”有CDO向Gartner表示,他们取得成功的两个最大障碍,就是文化挑战,以及缺乏对最重要项目的明确定义。
对于CDO来说,一个新出现的、明显的优先事项就是更快速地把数据提供给那些需要数据的人。这已经成为推动采用大数据的主要因素。把大数据从一个数据库迁移到另一个数据库、以及把数据提供给人们的过程中,涉及到提取/转换/加载的速度一直是很慢且成本很高的。
“每次你想增加一个变量的时候,你得去找IT,然后你会得到一个巨大的账单。”Varadachary表示。然而在大数据世界中,“数据正在流入你的数据湖中。你在大约一周的时间内就可以把一个变量添加到生产层中,相比之下以前得需要3个月。”
对于像葛兰素史克这样的公司而言,这种速度是至关重要的,该公司正在试图把将新药投入市场所需的时间从8年缩短到12个月。“这将颠覆制药行业的发展,”Ramsey表示。传统数据存储和管理技术无法处理人类基因组这样多达几个TB大小的文件,所以大数据平台必须发挥更核心的角色。
CDO不容易搞清楚的是他们在企业组织结构中的位置。CDO这个工作是否是应该汇报给IT部门还是另一个C级高管,围绕这个问题的讨论自有CDO这个角色以来一直持续着,那些正在担任CDO职责的人也都各执一词。
对于葛兰素史克的Ramsey来说,汇报给IT会限制创新力。“当我听说CDO要汇报给CIO的时候,这通常意味着要专注于监管和架构,但却很少关乎业务的成长。”
CIO倾向于对效率和成本控制进行衡量,这不是鼓励冒险的心态。“你可以想象当我希望把所有操作数据放到Hadoop、把存储需要的存储容量翻倍时我和CIO之间进行了一场多么有趣的对话吗?”
通用公司的Clark表示不敢苟同。她在担任目前CIO下的职责前,是汇报给多位企业高管的。IT部门提供的资源和可扩展性是其他地方没有的,IT部门知道她在做什么。
“如果你在这个职位上与IT部门并行工作又得不到太多支持的话,那么你就没办法很好地开展工作。我们的CIO是很有战略性的,我们利用的这个团队是与我们有一致性的。”
最近NewVantage Partners LLC的研究发现,有35%的CDO认为他们应该汇报给CEO,有18%的人倾向于COO,只有16%的人认为应该是汇报给CIO。
如果数据的确是一个公司级的资产,那么这个问题的确是值得商议的。
Varadachary表示:“不管你是在组织中的哪个位置,你都必须赢得高管的心。这要归结于这样一个事实,很多人很精通数据,有些人则不是。你需要花时间和那些不精通数据的人在一起。”
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。