中华人民共和国国家互联网信息办公室(以下简称“网信办”)颁布的《数据出境安全评估办法》(以下简称《办法》)于2022年9月1日生效。该办法为数据出境传输的安全评估和审批提供了框架,不仅适用于个人信息,也适用于比个人数据范围更广的重要数据。
这一办法的实行,对于在中国经营的跨国公司意味着大量的合规风险,对其正在进行的或即将要进行的数据传输活动具有重要影响。因为对适用于数据出境安全评估的跨国企业而言,只有最终通过政府主导的安全评估,才可以继续数据传输活动。
在中国有业务往来的企业机构可能需要开展当地政府主导的业务数据和个人数据出境安全评估。跨国公司的安全和风险管理(SRM)领导者必须提前计划,避免数据传输或业务运营的中断(见图1)。
图1:数据出境安全评估办法的基本框架
政府主导的安全评估,只有在数据达到一定敏感程度或规模时才会触发
如今,在中国从事国际贸易的公司无论行业和规模如何,其日常运营或多或少地以来数据跨境流动。数据跨境传输能力已经成为生产力、创新和业务增长的重要组成部分和关键推动力。限制或丧失数据出境传输会导致管理和运营成本的增加;削弱产品创新,使产品无法及时进入市场;或使产品价格缺乏吸引力。
然而,并非所有受《办法》监管的数据出境传输活动都需要申请政府主导的安全评估。只有当中国的数据处理者满足一定条件时,才需要申请政府主导的安全评估。
图2:触发政府主导安全评估的决策树
2024年3月,网信办发布的《促进和规范数据跨境流动规定》提出放宽数据跨境传输的合规要求。该《规定》规定了在满足具体条件的情况下,数据出境的企业机构可以免于申报数据出境安全评估、订立个人信息出境标准合同,或获得个人信息保护认证,从而促进中国大陆以外的数据流通。
长时间的申请和评估流程可能会使计划中的项目延期
根据网信办发布的信息以及收到的客户反馈,完成安全评估大约需要三个月。企业机构需要提前计划,尽早根据新要求进行调整,以防数据传输中断或新项目上线延迟。
向当地网信部门申报评估需要提供必要材料。SRM领导者应与安全、隐私、法务、合规和业务部门地关键利益相关者沟通,准备必要的材料。材料不全或信息不准确,可能会导致安全评估取消或失败。
安全评估从周期性的行动变为持续性合规工作
通过数据出境安全评估的结果有效期为3年。数据处理者应当在有效期届满60个工作日前申请延长评估结果或重新申报评估。
作为跨国公司,如果其快速增长的新业务依赖数据跨境流动,则应预见到对安全评估的准备和申报将成为一项持续性运营工作。这会增加管理合规成本,对于大型企业来说也许可以忽略不计,但对于中小型企业来说仍是一个重要问题。
如果跨国公司需要在一个地区集中存储和处理从不同司法辖区(如中国、欧洲和美国)收集的客户数据,则其需要具备对数据进行差异化处理的能力。
安全评估结果促使企业机构重新审视本地化策略
Gartner的客户询问表明,中国大多数受《办法》监管的跨国公司已经开始准备申报或正在进行安全评估,但正式通过审批的申报数量有限。由于网信办可能要求整改以及由此可能产生额外的管理和运营成本,企业机构应重新审视在中国的数据本地化和IT隔离的战略。
好文章,需要你的鼓励
P1.AI创始人保罗·埃雷门科正用合成数据训练AI设计物理系统,从住宅冷却到星际飞船,突破工程AGI的终极瓶颈——数据稀缺。他的AI工程师Archie已能像人类一样处理多物理场任务,目标是让机器设计人类无法想象的复杂系统。
波士顿大学研究团队开发的DORI基准测试从四个维度评估多模态大语言模型的物体方向理解能力:正面对齐、旋转变换、相对方向和规范方向感知。研究评估了15个最先进模型,发现即使最佳模型在粗粒度任务上的准确率也仅为54.2%,在细粒度方向判断上更低至33.0%,与人类表现相差近30%。结果表明当前模型在精确角度估计、多视角追踪和理解复合旋转方面存在系统性缺陷,反映了它们内部3D空间表示的根本局限,为未来模型设计提供了明确方向。
这篇研究介绍了Oracle AI团队开发的一种针对企业系统的域特定检索硬负样本挖掘框架。该方法通过整合多种嵌入模型、降维处理和独特的语义选择标准,动态识别具有挑战性但上下文无关的文档作为训练样本,显著提升了重排序模型的性能。在云服务领域的测试中,该方法在MRR@3和MRR@10指标上分别提升了15%和19%,并在多个公开领域数据集上展示了广泛适用性,为企业搜索和检索增强生成应用提供了实用解决方案。
Oracle研究团队开发了FS-DAG,这是一种用于视觉丰富文档理解的少样本领域适应图网络模型。与传统大型模型不同,FS-DAG仅需5份示例文档即可适应新文档类型,参数量不到90M,却在信息提取任务中表现卓越。模型采用模块化架构,结合预训练的文本和视觉特征提取器与图神经网络,展现出对OCR错误的极强鲁棒性(性能下降不到1%)。实验表明,FS-DAG在多种文档类型上优于LayoutLMv2等大型模型,同时具有更短的训练和推理时间。目前已被50多家企业采用,每月处理超过100万次API调用,证明了其在实际业务场景中的价值。