ZD至顶网CIO与应用频道 09月23日 北京消息(文/王聪彬):9月初,美国消费者金融保护局称美国富国银行(Wells Fargo)员工在未告知客户的情况下,自2011年起私自建立近两百万个虚假银行账户,富国银行被要求支付1.9亿美金高额的罚款。
9月中旬我也在大洋彼岸见到了美国富国银行企业模型风险部副总裁刘维政(Richard Liu),第二次见面没有客气,一上来我就提出了“幽灵账户”和风险管控的问题。虽然刘维政最近正热衷于研究和学习太极,但他却并没有和我“打太极”。
“这一现象其实在很多银行都可能发生,可能只是没有找到数据发现他们。”刘维政则从数据的角度为我解读了这一事件给银行业带来了一个很好的启示,银行内部的风险管控也是很重要的一部分。
传统管控大多着重在结构化数据,像客户的开户数据都是非结构化数据,现在这些非结构化数据也要用相应的方式存储来了解顾客行为的变化,当然传统的KPI指标配置模式也值得去思考。
银行实质从事的就是风险业务,而数据是银行最有价值的资产,如何依靠数据量化风险发挥价值是成功的关键。当然最终所有的分析还要遵从银行的经营模式,就像在武侠小说里,各大门派都有着自己的一套武功体系一样,在银行的经营上也是如此,富国银行则重点在商业分析上具备明显优势。
富国银行企业模型风险部副总裁刘维政(Richard Liu)
大数据成就风险管理
目前富国银行拥有超过7000万个客户,8643家网点,虽然拥有众多的客户和网点,但富国银行每次看到这些庞大得数据仍然担心这些客户会流失,因为银行的三大职能存、贷、汇都是非常容易被替换的。
银行的客户流失可分为两种情况,一种是因为服务问题主动关闭账户,另一种则是安静型流失,因为在美国休眠6年的客户按照法规将被清理。
“银行最害怕客户在没有任何抱怨的前提下主动关闭账户。”刘维政说,在客户主动关闭账户前我们会有一个决策树,从中可以看到他提出问题的过程和轨迹,从而进行分析挽留客户。因为获得客户的成本和留下客户的成本相差千倍,富国银行建立了很多统计模型去预测一个人的终身价值(Life Time Value)。
传统的分析过程中比较偏向于名单似的销售,也就是从数据库中寻找客户价值,看到客户价值中缺少的产品,再产生一个名单进行跟进推销。这个模式可能大家都经历过,接到银行的来电推销产品,这一模式在经历了10年已经越来越低效,客户也逐渐产生疲倦效应。
富国银行则在利用大数据的过程中发现了一个重点,除了人的信息很重要外,时间信息实际上更重要,因为时间和人连接后一个重要的关键因素是行为的变化,就像你给一个整天待在家的人推销信用卡成功率会很低,而银行需要换位思考。刘维政举了一个生动的例子,当一个人出现在本身住所外的其他城市比例更高时,就可以断定这个人的用户习惯发生了改变,所以可以向其推销航空卡和信用卡来应对他的行为变化。
当然富国银行企业模型风险部的工作还不仅于此,其主要保证银行现金流的收入,因为银行风险管理的首要问题就是资产负债。一部分是通过数据建模进行信用风险评估,另一部分是银行操作流程风险,尤其在针对客户行为分析防范洗钱上美国银行都投入了庞大的成本。
说回幽灵账户事件,这也引出另一个重要问题,即如何把结构化数据和非结构化数据进行结合。银行需要回到基本的数据整理,充分运用大数据,除了结构化数据外,富国银行还会从非结构化数据中查看结构化数据的合理性,这中间也使用了人工智能的方式。
通过检测算法主动找到不正确的地方
更聪明地投资FinTech
在风险分析上,富国银行使用Teradata的产品已经有近20年之久,其中Teradata Aster的使用最为广泛,因为Aster提供了在同样分析条件时最简单的语法,这样企业就不需要雇佣资深的编程人员,普通的策略分析人员也可以利用简单的编程语言做高深的分析。
在开源方面,富国银行还用了Hadoop和Spark,因为在经济模型的构建中银行需要绝对的可控,尤其是后续在建好的架构中做修改。但企业在开源的过程中面临的最大问题是如何和原系统进行融合,所以富国银行也正在向着统一数据架构(UDA)进行演变,Teradata则提供了一个整体的服务整合。
在云计算方面,美国金融行业还是比较保守,银行要符合政府的安全规范。在刘维政看来,严格意义上讲真正的云计算是在资源集中化之后通过API跨不同平台实现调用,而富国银行的应用还只是在基础阶段。
富国银行把美国划分为四个区域,每个区域都有一个数据中心互相进行数据备份。由于美国希望创造一个经济平台,将不同领域的数据集中分析产生价值,所以富国银行的数据甚至还会备份到国家的数据中心。
不管是大数据还是云计算,这些都属于FinTech的范畴,而FinTech在全球金融领域又是不可不谈的一个话题。但在金融海啸之后美国银行受了很多伤,刘维政所看到的实际环境是,银行在科技上的支出非常受限,很多银行都在疲于支付高额的罚款。
由于和中国金融环境的不同,在FinTech上美国银行面临的问题是如何更聪明地去投资科技。对富国银行而言,FinTech也是一个重要项目,目前富国银行已经建立了加速器,希望在传统金融的思维上拥抱一些新的想法。
同时,富国银行在区块链这一去中介的记账方式上也做了很多研究,虽然其目前在交易上还很难应用,但在信用风险上有却着重要意义,尤其可以防止像2008年美国次贷危机的出现,在贷款过程中对借款进行追踪,实现透明化。
好文章,需要你的鼓励
这项研究介绍了一种名为FlowPathAgent的神经符号代理系统,用于解决流程图归因问题。研究团队提出了流程图精细归因这一新任务,构建了FlowExplainBench评估基准,并开发了结合视觉分割、符号图构建和基于代理的图形推理的方法。实验表明,该方法在归因准确性上比现有基线提高了10-14%,特别在处理复杂流程图时表现出色,为提升人工智能系统在处理结构化视觉-文本信息时的可靠性和可解释性提供了新途径。
这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
这份来自向量研究所、康奈尔大学和格罗宁根大学研究团队的综述分析了基于大语言模型的代理型多智能体系统中的信任、风险和安全管理框架(TRiSM)。研究系统地探讨了代理型AI从概念基础到安全挑战,提出了包含治理、可解释性、模型运营和隐私/安全四大支柱的TRiSM框架。文章还详细分析了威胁向量、风险分类,并通过真实案例研究展示了潜在脆弱性。
这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模型对训练数据中欺骗性特征的依赖。实验表明,该方法在CelebA、SpuCo Birds和Spurious ImageNet数据集上显著提升了模型在缺失组别上的性能,为资源受限环境下的AI应用提供了实用解决方案。