至顶网CIO与应用频道 03月05日 北京消息:在“上云”已经成为共识之后,如何保障云上企业业务的连续性和可用性,成为业界关注的一个重要话题。
根据明尼苏达大学的研究,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%的的企业在两到三年后退出市场,而随着企业对数据处理依赖程度的递增,该比例还有逐渐上升的趋势。
IDC在全球范围内,针对多个行业的中小型企业(员工数小于1000名)的调研显示,近80%的公司预计每小时的停机成本至少在2万美元以上,而超过20%的企业估算其每小时的停机成本至少为10万美元。
目前,不管是对于云计算厂商,还是对于上云企业,高可用都已经成为业务架构设计中必须考虑的因素之一,它通常是指通过技术手段,尽可能缩短因日常维护操作(计划)和突发的故障(非计划)所导致的停机时间,以提高业务的可用性。
以国内领先的云计算厂商腾讯云为例,腾讯云目前在高可用性这块做了很多的努力,无论是技术架构还是落地实践都走在国内公有云厂商的前列。架构上,腾讯云高可用包括客户端接入、外网接入、云内网络、云上服务器、中间件、数据层等多个层面。
详细来说,在客户端引入腾讯云全球领先的接入层技术(云解析、httpdns和IP直连), 通过腾讯云智能调度系统,可以保证任意节点发生故障均能无缝切换到其他节点;针对外网接入,高达40+ BGP线路和跨区域容灾能力,能够第一时间对故障快速调度切换,防止骨干网故障;云内网络通过跨区域数据中心互联互通,形成双环路保护。
最核心的云上服务器,腾讯云目前支持宕机迁移无感知,同时,云硬盘三副本存储策略,可以消除单点故障;腾讯云中间件能够实现跨区域集群,在保障数据正确的同时,减少业务感知;腾讯云数据库支持实时热备,读写分离,实现了同城多可用区、异地灾备和两地三中心,满足跨地域容灾金融级需求。
除了上述六层高可用方案保证之外,在最关键以及最主要的基础设施层,腾讯云也具备高可用方案。比如,依托遍布全球五大洲25个地区的53个可用区,腾讯云为国内外用户提供强有力的技术支持,助力业务飞速拓展。另外,部署全球的超1300+个加速节点,超过100T的带宽储备,能够将服务内容分发到全网加速节点,支持千万级用户并发,有效解决跨运营商、跨地域高延迟访问等问题。
对于越来越多的上云企业而言,除了选择有高可用架构的云服务商之外,更要搭建符合自身业务特色的高可用架构,才是业务稳定性的重要保证。
比如,作为目前国民级短视频社区快手。短视频和直播业务是快手最重要的业务,其中访问量,突发,高性能处理等并发要求高,平台服一旦故障,将会对其产生巨大的损失。
为了确保平台服的高可用,腾讯云从接入层、逻辑层、以及数据层帮助快手建设高可用解决方案。在接入层,通过专线链接各大机房,利用腾讯云的安全产品,保障全站的网络攻击;逻辑层和数据层针对核心的业务做异地多活,定期演练,以应对机房灾难性故障的快速恢复。通过多项高可用方案,腾讯云全面护航快手业务连续性和稳定性。
电商平台由于自身的业务特性,需要应对节假日等流量高峰和高并发冲击,其对高可用的需求更为强烈。在移动电商领域,每日优鲜是这个领域最典型的案例。作为致力于重构供应链,连接生鲜生产者和消费者的领导电商,每日优鲜目前在北上广深等10多个城市构筑了“城市分选中心+社区配送中心”的极速达冷链物流体系,为全国数百万客户提供会员1小时送货上门服务。
每日优鲜之前业务全部部署在单一云服务商之上,一旦出现网络故障,将会导致业务全部中断,没有容灾切换能力。腾讯云通过多云热备部署,DNS应急切换,保障业务连续性,实现业务容灾切换。双云之间通过专线打通,实现双线冗余,系统异常时,流量切入腾讯云,并通过技术手段实现数据一致性。
游戏场景对于高可用方案的需要则更为迫切,一款热门游戏,在极短的时间内需要应对10倍以及百倍的用户量增长。完善的高可用解决方案对于保障游戏的顺利运营,起到极为重要的作用。作为国内知名的游戏平台,乐逗游戏承载数款热门网络游戏,其最重要的业务模块为游戏平台服务系统,为了确保该系统的高可用,腾讯云为乐逗游戏平台提供了一整套异地容灾高可用解决方案。
为了实现游戏平台服的跨城异地容灾,规避机房故障等灾难性故障对业务造成的影响,腾讯云通过负载均衡接入,并将BGP高防包绑定负载均衡做抵御网络攻击;同时,为应对业务用户激增方便扩展,系统接入自动扩容,根据业务流量动态扩缩容;另外,在关键的数据层采用数据库读写分离架构和主备容灾架构做好高可用。
随着越来越多的企业将业务部署在云上,故障已经成为企业不得不重点关注的重点,采用高可用架构和方案也成为企业运维人员必须思考的话题,除此之外,作为企业技术人员,如何保证企业业务和服务的稳定性,值得业界一起探索。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
Patronus AI发布突破性研究,构建了首个系统性AI代理错误评估体系TRAIL,涵盖148个真实案例和21种错误类型。研究发现即使最先进的AI模型在复杂任务错误识别上准确率仅11%,揭示了当前AI代理系统在长文本处理、推理能力和自我监控方面的重大局限,为构建更可靠的AI系统指明方向。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
这项研究首次从理论和实践证明AI模型可通过模仿生物睡眠-学习周期显著提升性能。研究发现AI训练中存在自发的"记忆-压缩循环",并据此开发了GAPT算法,在大语言模型预训练中实现4.8%性能提升和70%表示效率改善,在算术泛化任务中提升35%,为AI发展指出了注重信息整理而非单纯数据扩展的新方向。