H3C 人工智能引擎，让AI落地

随着大数据和硬件计算能力的迅猛发展，AI人工智能在近几年已获得重大突破，人工智能赋能于各行各业，如公安、汽车、教育、工业等等。

随着大数据和硬件计算能力的迅猛发展，AI人工智能在近几年已获得重大突破，人工智能赋能于各行各业，如公安、汽车、教育、工业等等。屏幕前的你是否还记得，上期我们给大家推荐的新华三人工智能引擎—AI Engine。秉承授人以鱼不如授人以渔的理念，采用拖拉拽的方式，实现快速的AI算法建模、模型评估与发布，让“蠢蠢欲动”的您也能感受AI带来的魅力。

众所周知，深度学习需要大量而又简单的重复、迭代运算。并行的计算量越多（计算芯片核心），计算效率越高。与CPU擅长逻辑控制和通用类型数据运算不同，GPU最擅长的便是大规模并行计算，性能提升几十倍以上。因此，人工智能场景下对GPU的需求愈发强烈。虽然通过上期介绍的AI Engine拖拉拽方式，能将AI建模的门槛有所降低，但对于专业的数据科学家，依然为底层GPU资源池的统一管理与调度、深度学习框架管理，一筹莫展、无从下手。

落地AI，依旧一筹莫展

针对图像处理、语音识别、自然语言处理等深度学习场景下，需要搭建大规模的GPU集群，针对不同的算法模型、不同的深度学习框架，用户如何统一调度与管理GPU集群的计算资源、存储资源，分配给不同的租户使用，是首当其冲需要解决的问题。

对于TensorFlow、Caffe、MxNet等深度学习框架，如何快速部署，提供开发镜像环境，满足不同用户在不同场景下的框架需求、算法需求与开发需求，也是数据科学家难以逾越的一道门槛。

面对多部门、多用户同时进行模型训练、在线推理，采用什么策略对各个任务进行调度，是抢占模式还是先进先出，以及每个训练任务利用哪个GPU加速卡，每个卡的运行状态如何，都需要统一的监控与管理。

对于AI，我们还能做的更多

针对以上问题，新华三人工智能引擎，还提供一体化的软硬件部署和管理服务，减少开发者系统安装维护工作量；优化分布式训练部署模型，实现多机多卡GPU资源与训练作业灵活调度；提供丰富的可自定义软件和镜像库，充分满足客户对AI计算环境的需求。

统一的集群管理：负责整个系统计算资源的集中管理、统一分配与作业调度，包括GPU资源池的集中管理与分配、多租户方式隔离计算资源、以作业方式动态分配计算资源以及计算资源回收等。

统一的监控运维：实时监控管理集群资源使用情况和集群状态，包括作业状态、GPU使用率、集群健康度等，并分析每一类的资源占用情况，提供触发预警机制。

统一的开发环境：提供一站式的交互开发操作界面，帮助用户完成模型脚本在线编辑、模型训练、模型验证以及模型推理等核心功能，并结合硬件资源可视化、作业调度器，最大化提高系统硬件资源的利用率。

AI赋能科研创新

GPU硬件资源的统一管理、计算任务的统一调度，与授之以渔式的算法建模与模型发布，类似新华三人工智能引擎的左膀右臂，可为用户提供从底层硬件资源、开发框架资源到数据建模服务，一体机化的AI平台解决方案。可广泛应用于高校、研究所、企业等，为意图在AI领域进行探索性科研创新，搭建人工智能实验室的客户，提供开创性的一体化人工智能平台，让AI起飞之前先落地。

2017年7月国务院刊发了《新一代人工智能发展规划》，明确提出要形成“人工智能+X”复合专业人才培养新模式，要加强产学研合作，鼓励高校、科研院所与企业等机构合作开展人工智能学科建设。新华三对大数据人才培养有完善的解决方案，那我们又如何利用成熟的大数据学科建设经验，结合人工智能引擎，开展“人工智能+X”教学实训了？欲知详情，请听下回分解。