至顶网CIO与应用频道 11月09日 北京消息:一直以来,高性能计算(HPC)在人工智能、智能制造、生命科学等行业,成为不可或缺的计算能力支撑。但企业搭建一个HPC平台需要不同的硬件设备和匹配的应用系统,涉及多个方面的技术和采购,是一笔巨额投入。因此目前也只有较大规模的机构才有能力建立独有的HPC平台。传统HPC平台解决了机构的计算密集型、海量数据处理等业务需求,为大企业及机构的创新奠定了坚实基础。然而在互联网时代,大企业追求轻资产化,努力实现数字化转型时期,传统HPC平台难以适应企业的业务发展。
传统HPC平台四大痛点桎梏业务发展
·巨额投入,但无法满足业务快速增长
业务的快速发展,应用计算量快速膨胀,对性能需求越来越高,传统HPC建设周期长,扩容难,难以快速应对业务发展的压力。由此带来硬件投资成本、部署成本都在不断上升。CPU、GPU等硬件快速更新,传统HPC难以按年更新硬件,而不更新则导致无法充分发挥昂贵的软件license授权的价值。
·空间环境受到挑战、运维管理成本高
业务系统的不断发展,传统HPC平台的空间需求、功耗需求、散热需求急剧增长;空间投资和管理维护成本迅速膨胀。
·资源独占,IT资源利用率低
不同应用、不同项目对于HPC的要求会不一致,因此在传统HPC平台上,大部分业务需求需排队使用HPC资源。但不同项目对于计算资源的需求量不一致,HPC平台需按照峰值建设,造成IT资源利用率降低。
·数据不能流动,共享困难
HPC的计算结果和数据存储在企业本地,难以跨企业共享,不利于第三方合作集成,传统的数据共享方式效率低下导致决策缓慢,失去市场领先地位,丧失研究成果良机,亟待提升效率。
华为云HPC助力企业业务发展进入快车道
华为云HPC方案采用即租即用、灵活弹性的交付给用户,用户无需运维与巨大的硬件成本投入,就能满足大企业业务的创新需求。
华为云HPC解决方案架构图
·混合云模式 充分利旧
大企业可利用华为云HPC解决方案与线下自建的HPC平台实现联动,充分利用已有资源。结合云端HPC即租即用的模式以及华为在HPC领域的丰富经验,应对业务爆发性需求,逐步实现HPC轻资产化。
·即租即用,弹性配置资源
用户可以根据业务量选择配置,当本地HPC平台无法满足业务需求时,利用华为云HPC,可以在数分钟内按需部署数百上千的新增计算节点,快速弹性的满足业务需求。华为云持续更新硬件设备,提供基于业界最新技术的云端HPC解决方案,软件授权也可按需使用。
华为云8月上线基于NIVDIA P100芯片的GPU服务器,10月提供基于NIVDIA的V100芯片的GPU服务器公测,华为云巨大投入,保持硬件设备的快速更新换代,使客户无需投入硬件成本即可尽快获取业界最优性能芯片主机。
·灵活的自服务能力
用户可通过华为云自动发放虚拟机、云化裸机,自动创建集群,长时间自动状态检测,五分钟搭建HPC平台。
华为在HPC领域耕耘多年,熟悉HPC配置、应用软件、行业特征,支持各种不同的HPC应用模板进行初始化导入。在服务器领域处于领导者行业,结合云计算技术,提供灵活、高效的HPC服务。
·多租户共享
用户往往有多个项目、多个部门或多个子公司需要使用HPC资源,华为云HPC可以按需租用,动态共享,计算节点按需申请/释放,避免过度投资,避免重复建设,同时租户隔离措施保障数据安全。
·合作分享
华为云已与HPC领域多家应用厂商合作,如达索系统、Altair等公司,共同建立数字化生态,降低用户创新成本,简化用户跨组织合作。
科学技术发展日新月异,云和互联网影响传统行业的发展。华为云HPC以弹性灵活、即租即用、开放合作的特点,帮助企业实现HPC的轻资产化,降低企业TCO,支撑大企业数字化转型与业务创新。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。