作为银行业务的核心,其数据的根本含义就是表达谁欠谁多少钱。在纽约梅隆银行,对数据的关注也同样体现在组织结构图当中。公司首席数据官Eric Hirschhorn对上会直接向银行CIO及工程技术主管Bridget Engle,对下则负责监督各具体业务线的CIO。
“这样的结构设计是有用意的,因为要想发掘数据中潜藏机的会,就必须将其与我们的技术紧密集成。我是公司内各部门CIO的同僚,需要保证各方能够密切合作;但作为政策的制定者,我一个人的认可并不足以发挥应有的效果。”
Hirschhorn于2020年底加入纽约梅隆银行,此前曾在金融服务领域工作过30多年。在职业生涯期间,金融行业对数据的关注度发生了天翻地覆的变化。
他回忆道,“二十年前,我们最关注的问题就是系统千万别崩溃了。十年前,我们更重要系统重要度和延伸效果。但在解决了这些结构性问题之后,最终一切还是要归于数据。因此我们正努力建立先进的能力,希望从数据的角度出发理解我们与周遭世界的联系。”
其中一项关键性举措,就是准确识别出与特定一家客户相关的所有数据,再据此整理出该客户与其他客户之间的联系。银行业有一项明确的监管要求,即“了解你的客户”或简称KYC,强调的就是银行机构必须知晓自己在跟谁打交道,从而履行反洗钱等义务。
“我们最初要解决的问题,也是金融市场乃至拥有大规模数据集的受监管行业中普遍存在的长期问题,即如何对实现实体解析或者说记录消歧”,具体来讲,就是识别出哪些引用记录指向同一家客户。
这种明确的关系认定能力,对于控制银行借款业务中的风险同样至关重要。当然,这个问题并非银行业所独有,很多企业都能以其他方式从明确了解各供应商/客户的机会中获得受益。
用数据定义客户
但要想了解客户,首先需要定义客户的确切构成。“我们采取了一种很有条理的观点,就是先纵观整个业务体系,然后回答「什么是客户?」。”
最初,各部门在定义客户所需要的字段数量和数据类型方面存在分歧,但大家最终还是就共同政策达成了一致。
首先,各部门都有自己的支出优先级。纽约梅隆银行掌握着一笔集中预算,各部门都可以利用这笔预算来聘请开发人员,确保各自拥有资源来实现客户定义。“简单来说,就是各部门提交开发者聘用申请,我们则付钱让他们按计划工作。”
在拥有了统一的客户定义之后,银行即可专注于去重。例如,假定原本掌握着一百条关于John Doe的记录,就要根据税号、地址和其他数据找出哪些指向的是同一个人,以及这些记录到底涉及几位名叫John Doe的不同个体。
纽约梅隆银行的努力并非从零开始。“实际上,我们已经构建起一系列非常复杂的软件,用以消除我们自有客户数据库的歧义。”虽然过程中不乏自动化元素,但原本的软件仍需要人工干预来解决不少常见问题,这里仍有不小的改进空间。
他还提到,内部解决方案的改进非常耗时。“考虑到这并不是我们的核心业务所在,所以我们决定在市场上寻找更聪明的外包商。”
其中就包括Quantexa团队,这是一家英国软件开发商,使用机器学习和多个公共数据源帮助客户增强实体解析的过程。
在Hirschhorn加入之前,该供应商曾经向纽约梅隆银行提交过初步概念证明。入职之后,Hirschhorn决定先以一个月为期开展价值证明,为供应商提供现有数据集,并了解新方法与原有内部工具间的性能差异。
结果是,更多记录被标记为可能同一个人有关,而且自动化处理的比例也有所提升。
“有了这样的关联能力,我们就建立起了更强的信心。这种信心非常重要,也是持续推动流程自动化的基础所在。”
在投入时间建立基础设施并整理出完整部署的数据工作流之后,纽约梅隆银行开始进行全面实施。期间共涉及软件开发团队和银行业务方面的三个小组:技术团队、数据主题专家团队,还有KYC卓越中心。“有他们的参与,我们才有机会从监管角度做好这项工作。”
Quantexa的软件平台不仅能够进行实体解析,还能映射出数据中的连接网络——谁与谁做过交易,谁和谁共享同一通讯地址等。
目前的难题,在于判断到底做到什么程度为止。“我们可以将客户记录与外部数据源相关联,再跟我们自己的活动相关联,之后是引入交易监控和制裁规则。我们目前正在推动概念验证,希望向这套综合体内添加更多数据集。因为一旦感受到这些数据集间的关联价值,我们就总想驱动更多结果,想要把所有用例都融合进去。”
向技术供应商投资
纽约梅隆银行不仅是Quantexa公司的客户,也是其投资者之一。在与该公司便笺年之后,梅隆银行于2021年9月决定入股。
Hirschhorn表示,“我们希望能对产品的开发思路发表意见,希望成为其顾问委员会中的一员。”
Quantexa绝不是纽约梅隆银行的唯一投资对象。该公司还投资过其他技术供应商,包括专业投资组合管理工具Optimal Asset Management、BondIT和Conquest Planning;低代码应用开发平台Genesis Global;以及2023年4月的IT 资产管理平台 Entrio。
当然,客户与投资者两种角色间也偶有冲突。“我们认为这种策略并不适用于纽约梅隆银行接触到的所有新技术公司。”
Hirschhorn还强调,虽然有些公司可能会购买主要供应商的股份以阻止自己的开支被身为股东的竞争对手赚去,但纽约梅隆银行投资Quantexa的意义并不在此。
“追踪和监管能力已经不再是银行业的专属,每个人都应建立起这方面储备。如今的金融犯罪活动越来越老练,跟上甚至是推动整个行业拥抱变化对于金融市场的健康发展非常重要。”
因此,在Quantexa于2023年4月开启新一轮融资时,纽约梅隆银行果断加入——一同参投的还有荷兰银行和汇丰银行。
好文章,需要你的鼓励
Jabra 推出 PanaCast 40 VBS:首款专为小会议室设计的 180° Android 智能音视频一体机
这是一项关于计算机视觉技术突破的研究,由多家知名院校联合完成。研究团队开发了LINO-UniPS系统,能让计算机像人眼一样从不同光照下的照片中准确识别物体真实的表面细节,解决了传统方法只能在特定光照条件下工作的局限性,为虚拟现实、文物保护、工业检测等领域带来重要应用前景。
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
这篇文章介绍了北京人工智能研究院开发的OmniGen2模型,一个能够同时处理文字转图像、图像编辑和情境生成的全能AI系统。该模型采用双轨制架构,分别处理文本和图像任务,并具备独特的自我反思机制,能够自动检查和改进生成结果。研究团队还开发了专门的数据构建流程和OmniContext评测基准,展现了开源模型的强大潜力。