科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道云计算系统宕机 如何才能不再盲目?

云计算系统宕机 如何才能不再盲目?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你最好事先就做好应对计划。

来源:TT中国 2012年7月19日

关键字: 云计算 故障

  • 评论
  • 分享微博
  • 分享邮件

  如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你最好事先就做好应对计划。

  根据不同应用程序和数据的不同重要等级,那些应对计划包括在客户自己的数据中心中运行冗余服务器,或使用多个云计算供应商来建立网络。

  时刻做好发生故障的准备,LiveFamily的创始人和CTO David Blinder说,LiveFamily是一个从事家谱研究的Facebook应用程序,同时也是位于华盛顿州Bellevue Intelius公司的一个部门。

  在Amazon网络服务(AWS)基础设施上运行的LiveFamily在六月中受到了两次停用事件的影响,虽然其危害并不是灾难性的。这部分是因为该公司使用了RightScale公司的云计算管理包,如果情况需要而且用户愿意支付费用,该产品可重新分配路由和网络流量至不同的云计算供应商。

  但是,提供高层次弹性功能并不是免费。专家提醒说,客户需要自行决定哪些应用程序是真正关键重要的。

  IBM公司的业务连续性和弹性服务组向他们的潜在客户进行了一次调查,内容就是在建立托管服务前哪些应用程序是关键,IBM公司的杰出工程师Rich Cocchiara说。

  “让我们确定你需要拥有的服务等级,为你提供你所需要服务种类的服务等级对象和协议,”Cocchiara说。“顺便说一句,并不是所有的业务流程和应用程序都是一样的。”

  保护系统停用可以非常简单,就如同在客户的数据中心中保持私有云计算设备。或者,它可能需要在不同的AWS可用性区域设立镜像站点;它也可能很复杂,如运行多个云计算平台。

  “我们确实曾受到影响,但是我们的缓冲系统通过在发生问题时切换回本地处理与存储基础设施而挽救了我们,”匹兹堡LAN联盟主席Colin Dean说,这是一个举办视频游戏运动赛事的组织。“有某种故障安全的考虑是理想的,即在发生故障时,把你的网站转至备用。”

  AWS宕机事件放大了云计算的重要性

  AWS在六月发生的两次宕机事件都是由电气故障引起的。第二次停用事件源于东海岸发生的大规模雷电天气所引发电气备用系统发生不可事先预见的故障。停用事件也对公司位于美国东1区的可用区域之一造成了影响,该区域是AWS最大的一个,其中至少有10个数据中心。

  在6月29日至6月30日晚上的几个小时中,诸如Pinterest、Netflix以及Instagram等大量的大型网站都不可用。

  此外,宕机事件也造成了AWS“控制面板”的崩溃问题——这也使问题进一步恶化。

  就公司本身而言,Amazon已表示,公司将重新认证或更换未能正常运行的备用发电设备,同时调整硬件参数,如在切换发动机电源前等待多长时间以便于电源波动稳定下来。

  AWS表示,这次最新发生的宕机事件并未影响“显著”数量的客户,虽然只有一个基于云计算的交友网站表示,受停用事件影响它将更换云计算供应商。

  AWS没有透露有多少客户或用户受到了宕机事件的影响。

  LiveFamily有幸提前做好了应急预案,并在发生问题时成功地在不同的可用区域中运行AWS实例,虽然问题的发生是情有可原的,但是我们“确实受到了影响”,Blinder说。

  RightScale云计算管理:Opscode Chef简化恢复任务

  除了提供其他的云计算自动化功能,包括RightScale公司的云计算管理以及其他诸如Opscode公司的Chef在内的产品可以有助于简化客户从停用事件恢复的操作任务。

  “故障总是会发生的,”位于西雅图Opscode公司的CCO和共同创始人Jesse Robbins说,Opscode公司主要致力于Chef云计算基础设施自动化产品。

  与RightScale类似,Chef支持多种云计算平台,其中包括AWS、OpenStack、微软公司的Window Azure,同时该公司刚刚宣布支持Google公司的计算引擎。

  “如Chef这样的工具可帮助你在发生故障时自动转换至另一个云计算供应商或为你提供自己的云计算,”Robbins补充道。“如果你的前期准备工作做得充分,那么发生故障仅仅只是一次意外事件,一次紧急事件,而非一场灾难。”

  Jeremy Przygode是位于洛杉矶Stratalux公司的共同创始人和CEO,AWS的经销商,Opscode的客户。提供基于云计算技术管理服务的Stratalux公司也有部分客户受到了六月下旬发生的停用事件的影响,但是公司处理事件显得从容不迫。“问题发生了,”Przygode说。

  运行多个云计算:复杂却有效

  对于那些真正无法承受停机时间的客户来说,诸如RightScale、Opscode以及其他供应商提供的工具可使客户运行多个云计算,但是这种做法是比较复杂的。

  “这真的很难做到,”位于康涅狄格州斯坦福德的Gartner研究公司首席分析师Kyle Hilgendorf说,“你必须在另一个供应商那里保留一个确切应用程序栈的镜像副本,然后你必须弄清楚如

  果其中一个发生故障时你该如何应对故障,切换至正常的云计算供应商。”

  事实上,很多专家都认为,在云计算中实施关键任务应用程序实际上可有助于防止停用事件。

  “我的专业背景告诉我,云计算绝对是防止这些类型停用事件的工具,即提供某些客户用户之前不曾拥有过的某些功能,”IBM公司的Cocchiara说。

  “因此,云计算不仅实现了价格实惠,而且因为它依赖于多个云计算中心,从而赋予用户们决定他们应采取何种风险水平的能力,”Cocchiara补充道。

    • 评论
    • 分享微博
    • 分享邮件
    闂傚倸鍊搁崐椋庢閿熺姴鐭楅幖娣妼缁愭鏌¢崶鈺佷汗闁哄閰i弻鏇$疀鐎n亞浠炬繝娈垮灠閵堟悂寮婚弴锛勭杸閻庯綆浜栭崑鎾诲冀椤撱劎绋忛梺璺ㄥ櫐閹凤拷

    濠电姷鏁告慨鐑姐€傛禒瀣劦妞ゆ巻鍋撻柛鐔锋健閸┾偓妞ゆ巻鍋撶紓宥咃躬楠炲啫螣鐠囪尙绐為梺褰掑亰閸撴盯鎮惧ú顏呪拺闂傚牊鍗曢崼銉ョ柧婵犲﹤瀚崣蹇旂節婵犲倻澧涢柛瀣ㄥ妽閵囧嫰寮介妸褋鈧帡鏌熼挊澶婃殻闁哄瞼鍠栭幃婊堝煛閸屾稓褰嬮柣搴ゎ潐濞叉ê鐣濈粙璺ㄦ殾闁割偅娲栭悡娑㈡煕鐏炲墽鐭嬫繛鍫熸倐濮婄粯鎷呯粵瀣異闂佹悶鍔嬮崡鍐茬暦閵忋倕鍐€妞ゆ劑鍎卞皬闂備焦瀵х粙鎴犫偓姘煎弮瀹曚即宕卞Ο闀愮盎闂侀潧鐗嗛幊搴㈡叏椤掆偓閳规垿鍩ラ崱妞剧凹濠电姰鍨洪敋閾荤偞淇婇妶鍛櫤闁稿鍊圭换娑㈠幢濡纰嶉柣搴㈣壘椤︾敻寮诲鍫闂佸憡鎸鹃崰搴敋閿濆鏁嗗〒姘功閻绻涢幘鏉戠劰闁稿鎹囬弻锝呪槈濞嗘劕纾抽梺鍝勬湰缁嬫垿鍩為幋锕€宸濇い鏇炴噺閳诲﹦绱撻崒娆戝妽妞ゃ劌鎳橀幆宀勫磼閻愰潧绁﹂柟鍏肩暘閸斿矂鎮為崹顐犱簻闁圭儤鍨甸鈺呮倵濮橆剦妲归柕鍥у瀵粙濡歌閸c儳绱撴担绛嬪殭婵☆偅绻堝濠氭偄绾拌鲸鏅i悷婊冪Ч閹﹢鎳犻鍌滐紲闁哄鐗勯崝搴g不閻愮儤鐓涢悘鐐跺Г閸犳﹢鏌℃担鐟板鐎规洜鍠栭、姗€鎮╅搹顐ら拻闂傚倷娴囧畷鍨叏閹惰姤鈷旂€广儱顦崹鍌炴煢濡尨绱氶柨婵嗩槸缁€瀣亜閺嶃劎鈽夋繛鍫熺矒濮婅櫣娑甸崨顔俱€愬銈庡亝濞茬喖宕洪埀顒併亜閹哄棗浜鹃梺鎸庢穿婵″洤危閹版澘绫嶉柛顐g箘椤撴椽姊虹紒妯哄鐎殿噮鍓欒灃闁告侗鍠氶崢鎼佹⒑閸撴彃浜介柛瀣閹﹢鏁冮崒娑氬幈闁诲函缍嗛崑鍡樻櫠椤掑倻纾奸柛灞剧☉缁椦囨煙閻熸澘顏柟鐓庢贡閹叉挳宕熼棃娑欐珡闂傚倸鍊风粈渚€骞栭銈傚亾濮樺崬鍘寸€规洖缍婇弻鍡楊吋閸涱垽绱遍柣搴$畭閸庨亶藝娴兼潙纾跨€广儱顦伴悡鏇㈡煛閸ャ儱濡煎褜鍨伴湁闁绘ǹ绉鍫熺畳闂備焦瀵х换鍌毼涘Δ鍛厺闁哄洢鍨洪悡鍐喐濠婂牆绀堟慨妯挎硾閽冪喖鏌曟繛褍瀚烽崑銊╂⒑缂佹ê濮囨い鏇ㄥ弮閸┿垽寮撮姀鈥斥偓鐢告煥濠靛棗鈧懓鈻嶉崶銊d簻闊洦绋愰幉楣冩煛鐏炵偓绀嬬€规洟浜堕、姗€鎮㈡總澶夌处

    重磅专题
    往期文章
    最新文章