至顶网CIO与CTO频道 06月18日 编译:数据科学是截至近年来技术领域中最具热度的方向之一。如果您拥有数据科学或者相关专业的工作经验及学位,那么只要大笔一挥、简历一发,一份薪酬可观的职位就会应手而得。但是,数据科学家能成为AI领域的长青树吗?或者说,几年之后围绕数据科学出现的这股热流终将消退?
Anthony Scriffignano, Dun & Bradstreet公司高级副总裁兼首席数据科学家
在日前的AI播客中,Dun & Bradstreet公司高级副总裁兼首席数据科学家Anthony Scriffignano分享了自己作为数据科学从业者的工作状态,以及人工智能如何改变金融行业的前景、经历与见解。
数据科学的当前定位
在Dun & Bradstreet公司,Scriffgnano主要负责技术创新与开发工作,同时也管理着“世界上规模最大的同类商业数据库”项目。Scriffignano解释道,这套前所未有的数据库持续从全球各个国家(除朝鲜与古巴之外)收集大量数据,日均摄取达数百万次。
这套数据库融合了每一种语言与写入系统,而且由七套不同的集成化数据库共同组成。这一综合性数据系统在跟踪企业数据的同时,亦会对总体风险及发展机遇做出全球性观察分析。以此为基础,该数据库得以实现大规模数据分析,进而检测供应链异常以及客户购买行为中发生的变化。毫无疑问,要从如此庞大的信息库当中提取价值,数据科学将成为我们不可或缺的关键武器。
对于像Dun & Bradstreet这样的组织来说,最大的挑战之一在于如何寻找经验丰富的数据科学家,保证这些既拥有从业背景、又颇具实践经验的人才处理如此巨大的研究数据集。遗憾的是,目前的人才市场还无法满足他们对于数据科学技能的需求。
Scriffignano表示,他相信AI技术正在快速发展,并必将在未来逐渐取代熟练的数据科学家,进而实现技术本身的普遍化与大众化。在Scriffignano看来,成为一名成熟数据科学家所需要的技能,在范围与深度方面都要远远超过机器学习模型开发者。从本质上讲,真正的数据科学家需要专注于立足更广泛的问题从数据中提取价值;相比之下,目前很多自称数据科学家的从业者实际上更像是机器学习工程师,也更多关注机器学习模型开发方面的工作。
Scriffignano认为,我们需要更多关注数据科学家概念中的“科学家”部分。在他看来,数据科学家必须有能力从观察到的数据中提出新的问题或者理论,对这一理论进行实验设计与具体测试,而后得出结论并分享相关结果。Scriffignano注意到,大多数组织只要求数据科学家给出可重复使用的模型,他强调只有将数据科学家视为改进与创新工作中的关键,才能帮助组织迈向成功。他还指出,正是由于不愿放权让数据科学家们接触单纯模型开发之外的新领域,才导致众多组织长期无法真正在数据科学与AI技术领域取得进展。
挑战:治理与伦理
除了从大数据集中获取价值的问题之外,Scriffignano认为,人工智能与数据科学还面临着来自治理与伦理层面的诸多挑战。这一点在涉及个人信息时体现得尤其明显。在建立大型数据库并使用私人信息建立智能模型时,我们该如何保证以负责任的方式使用这些私人信息?
目前世界各国之所以开始以愈发严格的态度审查机器学习模型,一部分原因就是这类模型往往涉及大量隐私性与安全性因素。无论模型关注哪些具体特征,隐私与安全都已经成为无法回避的现实问题。Scriffignano提出一个有趣的观点,认为AI法规终将陷入为了满足需求而努力迎合所有人、又为了迎合所有人而产生更多需求的怪圈或者说泥潭。人们希望进一步提升模型的自定义空间与开发开放式,但又不愿意在隐私权方面做出妥协。
一部分企业与个人将从使用大量数据的模型当中受益,这些模型需要庞大的数据基础以做出更精确的预测,但这同时也将以获取大量私人信息为代价。有些人可能不希望自己的数据被囊括在这些模型当中,而这又反过来导致模型的精度有所下降。结果就是,面对机器学习模型的发展与所需数据量的扩展,总会有人对现状感到不满。
Scriffignano坚信,政府监管机构如果希望在保障国家安全的同时回避与隐私相关的问题,那么最好的办法是对技术发展抱有开放的态度。在世界上的不同地区,法律与法规的制定与细则总会存在很大差异,不同司法管辖区间对于道德伦理的认识同样可能不太一致。这种现象目前已经体现得相当明确:欧洲在道德伦理方面约束得最为严格,中国对隐私保护的关注度不高,而美国则处于二者之间。某些国家更希望强调隐私保护,而另一些国家则更重视国家安全或者经济发展。
正如Scriffignano所提到,其中的核心问题是,机器学习本身并不存在地理界限。在某个区域内完全不可接受的实践,在另一个地区则可能并无不妥。因此,模型的构建位置与使用位置也可以据此有所区分。毕竟模型的传播往往很难控制,所以这种低隐私要求区域生产、高隐私要求区域消费的作法很可能成为未来的通行方案。
在本次播客节目中,Scriffignano还表达了自己对于拟人化AI的厌恶之情。他更愿意选择较为务实的思路,这不禁让我们想起由算法与流程驱动的目前这波AI技术变革。Scriffignano以人工通用智能(AGI)为例,提出了自己的具体观点。他认为,如果我们无法以所掌握的大量数据为基础提出正确的问题,那么人工智能的真正突破永远无法到来。
他还预见出一种未来,认为专业人士将与AI携手并进。只要我们保持警惕,就不必担心彻底被机器或者机器人所取代。为了实现这样的美好未来,我们当然需要保持审慎的心态并高度重视数据伦理与治理问题。只有这样,AI才能真正成为通往全新时代的桥梁。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。