至顶网CIO与CTO频道 09月03日 人物访谈(文/王聪彬):多数大型企业从内到外,上上下下各环节都非常依赖数据的支持。一旦数据中心出现问题,数据的可用性无法保障,企业所有工作都会受影响,甚至什么事情都不能做。
通威股份有限公司(以下简称“通威”)是典型的基于数字化运营决策的企业,通威正秉承“为了生活更美好”的企业愿景和“追求卓越,奉献社会”的企业宗旨,坚定不移发展农业和新能源两大主业。农业主业以饲料工业为核心,全力延伸和完善水产及畜禽产业链条,打造和服务为一体的世界级健康安全食品供应商;新能源主业形成了完整的拥有自主知识产权的光伏新能源产业链条,并已成为中国乃至全球光伏新能源产业发展的核心参与者和主要推动力量。
“通威的业务形态和应用实际对IT可靠性提出了非常高的要求。”通威股份有限公司信息总监周勇说道,即便可用性标准设定得非常高,传统企业数据中心面临最大的挑战还是在于运营过程中大量不可控的因素。
通威股份有限公司信息总监周勇
所以对于通威最大的风险在于一旦出现故障,究竟需要多久能实现系统和业务应用的恢复?恢复时间是否在可承受范围?目前在中国谈到容灾,技术、成本等问题让很多企业望而却步,通威则在云上找了灾备的新路径和新方式。
业务依赖IT带来的烦恼
对于十多年前就已经开始使用IP电话的通威而言,信息化建设由来已久。主要经历了三个阶段:1998年-2005年的1.0阶段,以提高工作效率为主,实现单厂进销存管理和财务电算化;2005-2013年的2.0阶段,以支撑业务运营为主,实现集团管控和协同;2013年-未来的3.0阶段,以创造竞争优势为主,打造全新平台支持战略落地。
通威从IT应用蓝图、基础设施架构、IT治理三方面对未来IT建设及发展的目标、内容进行了规划。IT应用蓝图搭建了"四大平台",即决策支持平台、集团管控平台、业务运维平台、服务支撑平台。基础设施构成"三个基础",即计算架构、存储、网络。IT治理实现"五大体系",即项目管理体系、IT运维体系、信息安全体系、能力建设体系、流程管理体系。
通威整体的IT架构类似IT圈常说的双模IT,核心管理系统基于传统架构,创新可扩展要求较高的创新系统基于X86架构。先后实施了ERP(企业资源管理)、FBC(融合业务云平台)、HR(人力资源管理)、SRM(供应商关系管理)等系统。
其中FBC项目可以说是通威最复杂也是最庞大的一个系统,包含了门户、BPM(流程管理)、身份管理、KM(知识管理)、ESB(企业服务总线)等,主要是为了构建灵活适应、快速复制、横向协同、纵向管控、有效集成、全面支撑的信息化应用系统。建立了5大平台(构建通威一体化的应用支撑平台)、6大规范建设(建设增强IT支撑业务发展的能力)、8大中心(构建通威完整工作平台)、N大功能(实现整体架构)。
同时通威还建立了以私有云为架构的IT基础设施及私有云数据中心,实现统一技术架构、网络、运算、存储等,实现对基础设施的有效管理及运维。
随着通威信息化对业务的覆盖越来越广,业务对于IT的依赖也越来越高,对于系统的连续性和稳定性有着非常大的挑战,而且IT复杂度越高也造成了运维的难度变大,再加上IT创新的不断加大,需要更快速的扩展和响应能力。
2013年,一次光纤因施工被挖断,让正值月底核算的通威碰到了前所未有的难题。对于上市公司来说,因IT导致的核算未完成将带来巨大的风险和隐患。正是这一经历,让周勇意识到,通威现在的IT还不足以完全保证业务的零故障。
传统两地三中心的模式在投入和实施周期上都非常巨大,而公有云则可以低成本、高效率的保障业务的连续性和稳定性,这也是通威尝试公有云的开始。
30分钟切换上云
公有云的灾备模式固然创新,但是真正的迁移过程却并不容易。周勇说,通威很多系统都不是基于云架构设计,上云存在较高的技术复杂性,而且如何保证本地和云上的数据同步也是一个难点。
在这种前提下,周勇大胆的提出要迁移业务就从最难的FBC系统开始,因为其是通威涉及最广的系统,与三十多个系统有复杂的集成,拥有500多个接口,如果出现问题对于通威的影响也是最大的,所以FBC也成了迁移公有云首先要攻克的问题。
通威非常担心集成和数据交互成为项目的瓶颈,所以在选择合作伙伴上非常谨慎,选择AWS不仅仅因其在技术上的领先性,而且AWS在中国本地还拥有高标准的数据中心和众多成功案例。周勇认为,FBC系统的迁移是一个创新性的项目,对于AWS也是一样。
最终通威联合AWS,以及AWS高级咨询合作伙伴四川知行志成科技有限公司一起设计了最终方案,在容灾软件应用、云上云下网络优化方面做了大量验证,在FBC系统API接口上进行了解耦和改造,解决了数据交换和通信速度瓶颈,让云上灾备成为一个普适性的方案。通威使用的AWS服务包括:EC2、EBS、VPC、IAM、S3、TrustAdvisor、CloudWatch、CloudTrail、Config、SystemManager、vmimport、ELB。
通威混合云及云容灾架构
从去年6月开始,10月完成测试,最后到今年6月攻克了数据传输问题。经过一年的战斗,FBC系统也正式迁移到AWS上,形成云上灾备。周勇说,有了通威FBC这样复杂系统迁移成功的案例,未来中国传统数据中心做云灾备就没有做不成的。
之前每月结算期间,周勇最担心的就是某分公司打电话说系统出现问题,恢复时间也不可预估。现在30分钟内就可以切换到云上,这是一个非常重要的指标和变化,而且恢复后还可以立即切换回本地,解决了通威IT的核心问题。在没有故障时,所有系统运行在本地数据中心,在云上只需付存储费用,按需付费是云灾备成本较低的原因。
通威现阶段也在进行灾备过程和步骤的标准化,通过系统自动化,更简单、快捷的一键上云,同时也在规划将ERP之外的系统全部在AWS上完成迁移备份。
由此,通威也找到了上云的路径和方向,未来从私有云作为主环境,转换成公有云为主环境,本地数据中成为备份环境,甚至全部业务都使用公有云,实现多云的灾备。这样IT团队也可以更加关注业务创新,实现整个IT的转型。
好文章,需要你的鼓励
在基于Chiplet的架构中,可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出,AI可从硅层遥测数据中挖掘价值,但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调,多供应商Chiplet生态系统需要标准化、安全的遥测模式,以实现跨芯片、封装和互联域的故障定位,同时保护敏感运营数据。目前,AI在遥测分析阶段已展现出显著价值,但可观测性的扩展本质上仍是架构问题。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
生命科学企业在全渠道战略和AI平台上投入巨大,但成效往往不尽如人意。问题根源不在于技术本身,而在于组织架构、数据治理和工作方式未能同步演进。许多转型项目止步于试点阶段,原因是各部门数据孤立、职责不清。要实现从传统CRM向智能互动的真正转型,企业需优先建立统一的数据基础和跨团队协作机制,并将AI能力嵌入日常工作流程,而非将其视为独立模块。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。