至顶网CIO与应用频道 11月09日 北京消息:一直以来,高性能计算(HPC)在人工智能、智能制造、生命科学等行业,成为不可或缺的计算能力支撑。但企业搭建一个HPC平台需要不同的硬件设备和匹配的应用系统,涉及多个方面的技术和采购,是一笔巨额投入。因此目前也只有较大规模的机构才有能力建立独有的HPC平台。传统HPC平台解决了机构的计算密集型、海量数据处理等业务需求,为大企业及机构的创新奠定了坚实基础。然而在互联网时代,大企业追求轻资产化,努力实现数字化转型时期,传统HPC平台难以适应企业的业务发展。
传统HPC平台四大痛点桎梏业务发展
·巨额投入,但无法满足业务快速增长
业务的快速发展,应用计算量快速膨胀,对性能需求越来越高,传统HPC建设周期长,扩容难,难以快速应对业务发展的压力。由此带来硬件投资成本、部署成本都在不断上升。CPU、GPU等硬件快速更新,传统HPC难以按年更新硬件,而不更新则导致无法充分发挥昂贵的软件license授权的价值。
·空间环境受到挑战、运维管理成本高
业务系统的不断发展,传统HPC平台的空间需求、功耗需求、散热需求急剧增长;空间投资和管理维护成本迅速膨胀。
·资源独占,IT资源利用率低
不同应用、不同项目对于HPC的要求会不一致,因此在传统HPC平台上,大部分业务需求需排队使用HPC资源。但不同项目对于计算资源的需求量不一致,HPC平台需按照峰值建设,造成IT资源利用率降低。
·数据不能流动,共享困难
HPC的计算结果和数据存储在企业本地,难以跨企业共享,不利于第三方合作集成,传统的数据共享方式效率低下导致决策缓慢,失去市场领先地位,丧失研究成果良机,亟待提升效率。
华为云HPC助力企业业务发展进入快车道
华为云HPC方案采用即租即用、灵活弹性的交付给用户,用户无需运维与巨大的硬件成本投入,就能满足大企业业务的创新需求。
华为云HPC解决方案架构图
·混合云模式 充分利旧
大企业可利用华为云HPC解决方案与线下自建的HPC平台实现联动,充分利用已有资源。结合云端HPC即租即用的模式以及华为在HPC领域的丰富经验,应对业务爆发性需求,逐步实现HPC轻资产化。
·即租即用,弹性配置资源
用户可以根据业务量选择配置,当本地HPC平台无法满足业务需求时,利用华为云HPC,可以在数分钟内按需部署数百上千的新增计算节点,快速弹性的满足业务需求。华为云持续更新硬件设备,提供基于业界最新技术的云端HPC解决方案,软件授权也可按需使用。
华为云8月上线基于NIVDIA P100芯片的GPU服务器,10月提供基于NIVDIA的V100芯片的GPU服务器公测,华为云巨大投入,保持硬件设备的快速更新换代,使客户无需投入硬件成本即可尽快获取业界最优性能芯片主机。
·灵活的自服务能力
用户可通过华为云自动发放虚拟机、云化裸机,自动创建集群,长时间自动状态检测,五分钟搭建HPC平台。
华为在HPC领域耕耘多年,熟悉HPC配置、应用软件、行业特征,支持各种不同的HPC应用模板进行初始化导入。在服务器领域处于领导者行业,结合云计算技术,提供灵活、高效的HPC服务。
·多租户共享
用户往往有多个项目、多个部门或多个子公司需要使用HPC资源,华为云HPC可以按需租用,动态共享,计算节点按需申请/释放,避免过度投资,避免重复建设,同时租户隔离措施保障数据安全。
·合作分享
华为云已与HPC领域多家应用厂商合作,如达索系统、Altair等公司,共同建立数字化生态,降低用户创新成本,简化用户跨组织合作。
科学技术发展日新月异,云和互联网影响传统行业的发展。华为云HPC以弹性灵活、即租即用、开放合作的特点,帮助企业实现HPC的轻资产化,降低企业TCO,支撑大企业数字化转型与业务创新。
好文章,需要你的鼓励
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。