至顶网CIO与CTO频道 08月05日 编译:私营部门很久以前就意识到了数据是宝贵的资源。企业可以利用大数据更好地了解客户、提高营销精准度及设计引人注目的产品和服务。公共部门在过去十年里取得很大的进步,但在利用自己所具有的丰富资源方面仍然落在后面。各个城市已经在使用数据,但却尚未探索到数据的真正价值。
2019冠狀病毒病(COVID-19) 突然出现在我们所有的社区里,也迫使当地政府和城市首席信息官(CIO)以有意义的方式做出响应。 最近,代表美国19,495个城市的倡导组织全国城市联盟(National League of Cities)发布了的一个报告(https://citiesspeak.org/2020/05/11/data-outlooks-in-the-age-of-covid-19/),报告重点提出数据收集方面需要加强,以达到帮助管理各种风险的目的,包括安全的社交距离、公共交通以及由于经济困难引发的迁离等方面的风险。不幸的是,具有足够能力准备好了应对高质量数据的挑战的城市并不多。
为了迎接高质量数据的挑战,技术领导者需要提高自己的水平。尽管使用数据的最终责任并不是城市CIO的职责(而是数据所有者的职责),但城市CIO必须提供数据收集、存储、安全性和适当的数据分发时用到的解决方案。数据必须在正确的时间、在正确的设备上提供而且要保持数据是最新的。这意味着要更有效地利用数据就必须与政府、地方社区以及其他地方的利益相关者合作。
改善城市CIO的数据作用
以下是一些城市应对挑战用到的方式里的几个例子:
· 涉及Covid-19病例和治疗准确数据的交流
纽约市用到的方法是一个量化和传达大流行复杂性的模型。模型的多个质量指数里的数据都是最新的而且很全面。该模型还将图形和一定程度的讲故事功能结合了起来。公民科学家和其他利益相关者还可以导出数据,存档的数据可用于更深入的分析。Jessica Tisch上任城市首席信息官仅三个月不到就要迅速采取行动进入处理Covid-19工作。核心优先事项之一是确保社区成员和其他机构可以轻松地访问数据。
· 打造更强大的数据治理
假如没有一套明确的、事先商定好的数据管理指南,那么无论是针对Covid-19还是其他许多其他问题都无法有效地利用城市信息。业界有很多来自咨询公司的报告,这些报告都强调要做好数据治理相关的工作必须要做的事情。阿根廷的布宜诺斯艾利斯市在数据管理方面还是特别有效的,因而可以进行许多基于决策的活动,包括隐私法规、城市清洁甚至器官捐赠等方面的活动。
要有效地应对大流行肯定是要重点确定哪些数据是可用的,哪些数据是不可用的,然后再收集数据、分发数据给利益相关者并确保数据准确性和最新性的流程上根据某个约定进行管理。
· 引进更多数据科学人才
各个城市为了确保有效地收集和利用数据应对大流行信息及与之相关的信息的日益增长的需求,有可能需要需要培养更多的数据科学人才。即是说,可以招人任职一些特定的数据职位,或是对团队的现有成员进行再培训。旧金山最近聘请了Jason Lally担任新的首席数据官(CDO),加强了旧金山市在数据科学方面的力量。首席数据官的职责是管理每个城市部门里的数据协调员,发挥数据的作用以及进行监视数据方面的工作。值得注意的是,Lally和他的团队还开了个数据学院,该数据学院提供一系列以工具和技能为中心的研讨会,目的是令城市雇员都能够掌握数据的使用。
CIO是变革催化因子
有些城市在治理和数据管理技能方面比较落后,这一切对这些城市来说是不容易的。时下的城市CIO必须同时是战略家和变革推动者。在Covid-19时期,城市CIO这个角色对于提供不间断服务和采用数字工具至关重要。要确保数据得到充分利用,这一点必须放在议程的顶部,还必须采取相应的行动。
要做到这一点,城市CIO必须说服其他利益相关者开展变革的必要性,即便是在大流行导致组织和预算承受着巨大的压力而且还很有可能需要增加支出的特殊时期。这不是件容易的事情,但为了共同征服Covid-19,各个城市及时准确的数据来源已经变得至关重要了。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。