案例基本内容和执行情况
蚂蚁区块链科技(上海)有限公司(以下简称蚂蚁数科)围绕数据要素为核心,融合隐私计算、区块链、大数据、可验证计算等技术推出隐私协作平台(简称FAIR平台),实现面向数据开放与数据基建的隐私增强型数据计算枢纽,并在监管、营销、风控、民生等多个垂直领域的落地使用,推动了隐私安全、可信的数据共享及价值流转。
平台全面建设并实践了隐私保护模式下的数据查询,统计分析,联合建模等能力,并融合软硬结合技术实现特定算法的高性能硬件加速。支持快速对接现有数据源,提供资源友好的可配置轻量化底座,在多个场景实践中展示出大规模数据下生产级可用的标准。例如在风控的使用场景中,可以在保护数据隐私的前提下实现联合建模,可在2分钟完成10万样本100棵树的XGB建模,产出模型精度相比单方建模精度提升30%以上,极大提升了风控识别准确率,降低了运营成本。
案例主要经济成效和社会成效分析
2021年12月,我国首次提出“十四五”数字经济发展规划,其中明确指出“(数字经济)是以数据资源为关键要素...的新经济形态。”。同时我们也看到数据要素在辅助企业进行智能化分析与决策等方面发挥着重要的作用,但在综合运用多方数据产生更大乘法效应的阶段,却面临数据共享存在隐私安全风险、数据持续流通存在可信挑战的问题。蚂蚁数科基于这一背景,综合隐私计算、区块链、大数据、可验证计算等技术推出隐私协作平台FAIR,实现面向数据开放与数据基建的隐私增强型数据计算枢纽,并赋能落地了监管、营销、风控、民生等多个垂直领域。FAIR产品每年销售收入数千万元并实现了稳步、高质量增长,除此之外,作为一款面向企业的隐私增强型数据平台产品,通过其密态分析与密态机器学习能力,在企业提升生产效率、降低运营成本、提升公共服务水平等方面带来了诸多实际落地成果。后续将以几个典型落地案例分别阐述这几个方面的提升。
在信贷风控场景的案例中,通过FAIR平台的高精度密态机器学习能力,提升了客户风控能力,降低运营成本。客户为某汽车金融厂商,通过机器学习模型进行信贷授信、反欺诈等风险防控。但其风险标签一般来自人工认定,往往数据量较少,且汽车厂商的用户画像特征数据维度偏少,训练后的机器学习模型精度不高,影响了风控质量。客户利用FAIR平台的密态机器学习算法,联合合作方提供的消费、交易、金融偏好等特征数据,充分融合多参与方、多维度的数据形成联合训练数据,在隐私保护多方数据的前提下进行联合建模,产出的模型精度提升30%以上。FAIR密态机器学习能力具备常见特征工程、建模、推理与评估能力,同时针对风控领域常见的样本不均衡等问题进行了针对性优化,最终可以在2分钟内完成10万级样本百棵树XGB模型的训练,1小时内完成数亿样本的模型推理,提升了密态机器学习效率,有效帮助客户改善了风险防控能力,实现降本提效与高质量发展。
在公共服务的案例中,通过FAIR平台的多方数据密态分析能力,帮助相关部门实现了多方数据安全核验,提高了公共服务水平。客户需要综合社保、税务等政务数据对企业数据进行交叉核验,判断其是否满足特定政策。然而由于政务数据的敏感性,无法归集到此部门进行调用,往年只能通过人工方式进行核验。通过引入FAIR平台的多方数据密态分析能力,在政务原始数据不出域的情况下实现联合计算,核验数据数千万条,实现相关事项的智能核验与秒批秒办,高效服务企业超千家。
在医学数据分析的案例中,通过FAIR平台的密态数据计算能力,完成了跨地区多家医院数据的联合统计分析。特定疾病的发生率是支撑卫生政策的重要信息,一般可基于人口学信息、实验室检查检验信息、住院信息等,经特定规则运算分析得出。而综合多家医院的数据将极大提升准确率,并可通过FAIR平台的数据脱敏与密态数据统计分析能力,解决多方数据交互过程中的隐私安全问题。FAIR平台提供SQL化的数据分析接入界面,客户通过构造SQL语句,就可以方便地完成多方数据的联合查询、统计分析、统计分布和相关性分析,进而实现疾病发生率的分析,为当地公共卫生政策制定提供决策支撑。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。