至顶网CIO与应用频道 03月05日 北京消息:在“上云”已经成为共识之后,如何保障云上企业业务的连续性和可用性,成为业界关注的一个重要话题。
根据明尼苏达大学的研究,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%的的企业在两到三年后退出市场,而随着企业对数据处理依赖程度的递增,该比例还有逐渐上升的趋势。
IDC在全球范围内,针对多个行业的中小型企业(员工数小于1000名)的调研显示,近80%的公司预计每小时的停机成本至少在2万美元以上,而超过20%的企业估算其每小时的停机成本至少为10万美元。
目前,不管是对于云计算厂商,还是对于上云企业,高可用都已经成为业务架构设计中必须考虑的因素之一,它通常是指通过技术手段,尽可能缩短因日常维护操作(计划)和突发的故障(非计划)所导致的停机时间,以提高业务的可用性。
以国内领先的云计算厂商腾讯云为例,腾讯云目前在高可用性这块做了很多的努力,无论是技术架构还是落地实践都走在国内公有云厂商的前列。架构上,腾讯云高可用包括客户端接入、外网接入、云内网络、云上服务器、中间件、数据层等多个层面。
详细来说,在客户端引入腾讯云全球领先的接入层技术(云解析、httpdns和IP直连), 通过腾讯云智能调度系统,可以保证任意节点发生故障均能无缝切换到其他节点;针对外网接入,高达40+ BGP线路和跨区域容灾能力,能够第一时间对故障快速调度切换,防止骨干网故障;云内网络通过跨区域数据中心互联互通,形成双环路保护。
最核心的云上服务器,腾讯云目前支持宕机迁移无感知,同时,云硬盘三副本存储策略,可以消除单点故障;腾讯云中间件能够实现跨区域集群,在保障数据正确的同时,减少业务感知;腾讯云数据库支持实时热备,读写分离,实现了同城多可用区、异地灾备和两地三中心,满足跨地域容灾金融级需求。
除了上述六层高可用方案保证之外,在最关键以及最主要的基础设施层,腾讯云也具备高可用方案。比如,依托遍布全球五大洲25个地区的53个可用区,腾讯云为国内外用户提供强有力的技术支持,助力业务飞速拓展。另外,部署全球的超1300+个加速节点,超过100T的带宽储备,能够将服务内容分发到全网加速节点,支持千万级用户并发,有效解决跨运营商、跨地域高延迟访问等问题。
对于越来越多的上云企业而言,除了选择有高可用架构的云服务商之外,更要搭建符合自身业务特色的高可用架构,才是业务稳定性的重要保证。
比如,作为目前国民级短视频社区快手。短视频和直播业务是快手最重要的业务,其中访问量,突发,高性能处理等并发要求高,平台服一旦故障,将会对其产生巨大的损失。
为了确保平台服的高可用,腾讯云从接入层、逻辑层、以及数据层帮助快手建设高可用解决方案。在接入层,通过专线链接各大机房,利用腾讯云的安全产品,保障全站的网络攻击;逻辑层和数据层针对核心的业务做异地多活,定期演练,以应对机房灾难性故障的快速恢复。通过多项高可用方案,腾讯云全面护航快手业务连续性和稳定性。
电商平台由于自身的业务特性,需要应对节假日等流量高峰和高并发冲击,其对高可用的需求更为强烈。在移动电商领域,每日优鲜是这个领域最典型的案例。作为致力于重构供应链,连接生鲜生产者和消费者的领导电商,每日优鲜目前在北上广深等10多个城市构筑了“城市分选中心+社区配送中心”的极速达冷链物流体系,为全国数百万客户提供会员1小时送货上门服务。
每日优鲜之前业务全部部署在单一云服务商之上,一旦出现网络故障,将会导致业务全部中断,没有容灾切换能力。腾讯云通过多云热备部署,DNS应急切换,保障业务连续性,实现业务容灾切换。双云之间通过专线打通,实现双线冗余,系统异常时,流量切入腾讯云,并通过技术手段实现数据一致性。
游戏场景对于高可用方案的需要则更为迫切,一款热门游戏,在极短的时间内需要应对10倍以及百倍的用户量增长。完善的高可用解决方案对于保障游戏的顺利运营,起到极为重要的作用。作为国内知名的游戏平台,乐逗游戏承载数款热门网络游戏,其最重要的业务模块为游戏平台服务系统,为了确保该系统的高可用,腾讯云为乐逗游戏平台提供了一整套异地容灾高可用解决方案。
为了实现游戏平台服的跨城异地容灾,规避机房故障等灾难性故障对业务造成的影响,腾讯云通过负载均衡接入,并将BGP高防包绑定负载均衡做抵御网络攻击;同时,为应对业务用户激增方便扩展,系统接入自动扩容,根据业务流量动态扩缩容;另外,在关键的数据层采用数据库读写分离架构和主备容灾架构做好高可用。
随着越来越多的企业将业务部署在云上,故障已经成为企业不得不重点关注的重点,采用高可用架构和方案也成为企业运维人员必须思考的话题,除此之外,作为企业技术人员,如何保证企业业务和服务的稳定性,值得业界一起探索。
好文章,需要你的鼓励
最新调查显示,近半数CIO将AI采用和自动化提升列为未来五年的首要任务。超过三分之一的受访者将加强业务连续性和灾难恢复作为重点,同等比例的企业将人才技能发展列为优先事项。尽管AI投资成为焦点,但投资回报率仍不明朗,近三分之二的商业领袖估计AI投资回报率仅为50%或更低。
微软亚洲研究院与清华大学联合提出双向感知塑造技术,通过创新的两阶段训练方法解决AI视觉理解中的关键问题。该技术让AI学会正确聚焦重要视觉信息,避免被无关内容误导。仅用1.3万训练样本就在八个基准测试中平均提升8.2%性能,超越使用数十万样本的专门模型,为AI视觉推理能力提升开辟新路径。
红帽公司宣布收购伦敦AI公司Chatterbox Labs,该公司专注于模型测试和生成式AI护栏技术。此次收购将为红帽AI产品组合增加自动化AI风险评估、安全测试和治理功能。Chatterbox Labs的AI风险指标帮助企业验证数据和模型是否符合国际法规,提供模型无关的稳健性、公平性和可解释性测试。收购将增强红帽的AI安全能力,包括生成式AI护栏、模型透明度和预测性AI验证等功能。
上海交通大学研究团队开发了TimeBill框架,解决大语言模型在实时应用中的时间不确定性问题。该系统通过精确预测回答长度和执行时间,动态调整AI记忆管理策略,确保在规定时间内完成任务的同时保持回答质量。实验显示TimeBill在各种时间预算下都能实现最佳的完成率与性能平衡,为AI在自动驾驶、工业控制等安全关键领域的应用提供了重要技术支撑。