至顶网CIO与应用频道 11月09日 北京消息:一直以来,高性能计算(HPC)在人工智能、智能制造、生命科学等行业,成为不可或缺的计算能力支撑。但企业搭建一个HPC平台需要不同的硬件设备和匹配的应用系统,涉及多个方面的技术和采购,是一笔巨额投入。因此目前也只有较大规模的机构才有能力建立独有的HPC平台。传统HPC平台解决了机构的计算密集型、海量数据处理等业务需求,为大企业及机构的创新奠定了坚实基础。然而在互联网时代,大企业追求轻资产化,努力实现数字化转型时期,传统HPC平台难以适应企业的业务发展。
传统HPC平台四大痛点桎梏业务发展
·巨额投入,但无法满足业务快速增长
业务的快速发展,应用计算量快速膨胀,对性能需求越来越高,传统HPC建设周期长,扩容难,难以快速应对业务发展的压力。由此带来硬件投资成本、部署成本都在不断上升。CPU、GPU等硬件快速更新,传统HPC难以按年更新硬件,而不更新则导致无法充分发挥昂贵的软件license授权的价值。
·空间环境受到挑战、运维管理成本高
业务系统的不断发展,传统HPC平台的空间需求、功耗需求、散热需求急剧增长;空间投资和管理维护成本迅速膨胀。
·资源独占,IT资源利用率低
不同应用、不同项目对于HPC的要求会不一致,因此在传统HPC平台上,大部分业务需求需排队使用HPC资源。但不同项目对于计算资源的需求量不一致,HPC平台需按照峰值建设,造成IT资源利用率降低。
·数据不能流动,共享困难
HPC的计算结果和数据存储在企业本地,难以跨企业共享,不利于第三方合作集成,传统的数据共享方式效率低下导致决策缓慢,失去市场领先地位,丧失研究成果良机,亟待提升效率。
华为云HPC助力企业业务发展进入快车道
华为云HPC方案采用即租即用、灵活弹性的交付给用户,用户无需运维与巨大的硬件成本投入,就能满足大企业业务的创新需求。
华为云HPC解决方案架构图
·混合云模式 充分利旧
大企业可利用华为云HPC解决方案与线下自建的HPC平台实现联动,充分利用已有资源。结合云端HPC即租即用的模式以及华为在HPC领域的丰富经验,应对业务爆发性需求,逐步实现HPC轻资产化。
·即租即用,弹性配置资源
用户可以根据业务量选择配置,当本地HPC平台无法满足业务需求时,利用华为云HPC,可以在数分钟内按需部署数百上千的新增计算节点,快速弹性的满足业务需求。华为云持续更新硬件设备,提供基于业界最新技术的云端HPC解决方案,软件授权也可按需使用。
华为云8月上线基于NIVDIA P100芯片的GPU服务器,10月提供基于NIVDIA的V100芯片的GPU服务器公测,华为云巨大投入,保持硬件设备的快速更新换代,使客户无需投入硬件成本即可尽快获取业界最优性能芯片主机。
·灵活的自服务能力
用户可通过华为云自动发放虚拟机、云化裸机,自动创建集群,长时间自动状态检测,五分钟搭建HPC平台。
华为在HPC领域耕耘多年,熟悉HPC配置、应用软件、行业特征,支持各种不同的HPC应用模板进行初始化导入。在服务器领域处于领导者行业,结合云计算技术,提供灵活、高效的HPC服务。
·多租户共享
用户往往有多个项目、多个部门或多个子公司需要使用HPC资源,华为云HPC可以按需租用,动态共享,计算节点按需申请/释放,避免过度投资,避免重复建设,同时租户隔离措施保障数据安全。
·合作分享
华为云已与HPC领域多家应用厂商合作,如达索系统、Altair等公司,共同建立数字化生态,降低用户创新成本,简化用户跨组织合作。
科学技术发展日新月异,云和互联网影响传统行业的发展。华为云HPC以弹性灵活、即租即用、开放合作的特点,帮助企业实现HPC的轻资产化,降低企业TCO,支撑大企业数字化转型与业务创新。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。