至顶网CIO与应用频道 07月19日 北京消息(文/编译):首席数据官(CDO)正在迅速摆脱后台数据质量和治理任务的阴影,走到企业计算战略的前线。
这个趋势正在变得越来越明显,特别是本周四Gartner新研究报告的发布,以及CDO们在一年一度麻省理工学院CDO和信息质量研讨会上分享的故事。
财富500强企业中的CDO人数已经从5年前的寥寥无几,增加到今天的300多人,但是到目前为止CDO的角色都不符合传统的定义。Gartner研究发现,CDO大多来自于广泛的背景和行业,没有标准的技能或者经验水平。
例如,在Gartner的CDO调查中有近30%的受访者是女性,女性人数远远高于其他信息技术领域。“这让我对CDO的多样性感到惊讶,”Gartner研究总监Valerie Logan这样表示。
更明显的趋势是,CDO自身正在成为战略家。Gartner研究发现,有2/3的CDO表示他们现在负责数据和分析项目,以及将数据运用于新业务解决方案中的责任。提到最多的职责,就是成为引领企业组织更好地将数据用于业务战略中的领头人和变革推动者。“我们很惊讶地看到,CDO有71%的时间用在了创新上。”
这是与去年调研相比的一个变化,去年的调研显示,很多CDO仍然在忙于将企业现有的数据组织起来。“在过去几年中,有太多的支出花在了与监管相关的事情上,”TD Bank NA美国的CDOJoan dal Bianco这样表示。“我认为企业正在更加战略性地使用数据。”
这一点得到了Mark Ramsey的认同,他是制药商葛兰素史克(GlaxoSmithLine PLC)的CDO。“CDO的角色真的转向进攻了。”
金融危机让很多公司采取了错误的数据战略,让CDO专注于组织数据而不是对数据采取行动。Ramsey表示:“治理和数据质量是使用数据导致的损耗。没有一家是围绕这一点创建企业数据模型和变革企业的。这必须是机器的一部分。”
随着很多公司看到像Google和Amazon这样以数据为驱动的企业吸引到了传统行业,他们很快就意识到他们所在的领域已经发生变化。
“我们正在扮演着主动进攻的角色,”通用公司CDO Christina Clark表示,通用公司正在经历着大规模的数字化转型。“我们正在考虑如何控制数据,这样数据就不会牢牢控制我们。”
事实上,通用采取了一种“数字线程”的理念,也就是让数据成为流程的核心,此外这也是让数据由那些可以更快速利用的人来掌控,用更灵活的、可以处理更多种数据的、使数据更可用的大数据湖来取代数据仓库。Clark表示:“这是把数据提供给那些需要的人的一种更简单的方式。”
转为攻势需要一系列新的优先级和技能。有CDO表示,他们的职责正在从看守员和图书馆员转变为教练和布道者。美国运通公司CDO Venkat Varadachary表示:“如果你想营造一个以数据为驱动的文化,那么提高数据智商是至关重要的。”他指出,美国运通公司CEO最近在问他要各种公司正在使用的机器学习算法,这样他可以与董事会和利益相关者在这方面聊得更深入一些。
Gartner研究副总裁Mike Rollings表示:“影响力是CDO这个角色的一个重要组成部分。当你建立了CDO这个角色的时候,你就改变了企业组织内的监管规则。这会改变行为。很多CDO都失败了,因为他们没有考虑到太多关于组织性变化的问题。”有CDO向Gartner表示,他们取得成功的两个最大障碍,就是文化挑战,以及缺乏对最重要项目的明确定义。
对于CDO来说,一个新出现的、明显的优先事项就是更快速地把数据提供给那些需要数据的人。这已经成为推动采用大数据的主要因素。把大数据从一个数据库迁移到另一个数据库、以及把数据提供给人们的过程中,涉及到提取/转换/加载的速度一直是很慢且成本很高的。
“每次你想增加一个变量的时候,你得去找IT,然后你会得到一个巨大的账单。”Varadachary表示。然而在大数据世界中,“数据正在流入你的数据湖中。你在大约一周的时间内就可以把一个变量添加到生产层中,相比之下以前得需要3个月。”
对于像葛兰素史克这样的公司而言,这种速度是至关重要的,该公司正在试图把将新药投入市场所需的时间从8年缩短到12个月。“这将颠覆制药行业的发展,”Ramsey表示。传统数据存储和管理技术无法处理人类基因组这样多达几个TB大小的文件,所以大数据平台必须发挥更核心的角色。
CDO不容易搞清楚的是他们在企业组织结构中的位置。CDO这个工作是否是应该汇报给IT部门还是另一个C级高管,围绕这个问题的讨论自有CDO这个角色以来一直持续着,那些正在担任CDO职责的人也都各执一词。
对于葛兰素史克的Ramsey来说,汇报给IT会限制创新力。“当我听说CDO要汇报给CIO的时候,这通常意味着要专注于监管和架构,但却很少关乎业务的成长。”
CIO倾向于对效率和成本控制进行衡量,这不是鼓励冒险的心态。“你可以想象当我希望把所有操作数据放到Hadoop、把存储需要的存储容量翻倍时我和CIO之间进行了一场多么有趣的对话吗?”
通用公司的Clark表示不敢苟同。她在担任目前CIO下的职责前,是汇报给多位企业高管的。IT部门提供的资源和可扩展性是其他地方没有的,IT部门知道她在做什么。
“如果你在这个职位上与IT部门并行工作又得不到太多支持的话,那么你就没办法很好地开展工作。我们的CIO是很有战略性的,我们利用的这个团队是与我们有一致性的。”
最近NewVantage Partners LLC的研究发现,有35%的CDO认为他们应该汇报给CEO,有18%的人倾向于COO,只有16%的人认为应该是汇报给CIO。
如果数据的确是一个公司级的资产,那么这个问题的确是值得商议的。
Varadachary表示:“不管你是在组织中的哪个位置,你都必须赢得高管的心。这要归结于这样一个事实,很多人很精通数据,有些人则不是。你需要花时间和那些不精通数据的人在一起。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。