ZD至顶网CIO与应用频道 11月14日 北京消息:近日,数人云与清华大学交叉信息研究院开放计算项目实验室(OCP实验室)合作共建深度学习平台,该平台通过数人云操作系统实现GPU资源共享,利用Docker技术交付深度学习的运行环境,让深度学习项目组师生可以更加灵活地使用GPU资源,并解决深度学习环境部署繁琐的问题。
深度学习算法的计算性能依赖强大的GPU计算能力,为了尽可能提高GPU资源利用率,数人云利用Mesos将GPU资源汇聚成资源池实现资源共享,并借用Docker交付深度学习的运行环境。
深度学习平台利用nvidia-docker ( https://github.com/NVIDIA/nvidia-docker )容器化深度学习组件,同时,借助数人云搭建GPU集群,共享GPU资源。最终,为用户提供了可一条命令部署深度学习环境的平台。
NVIDIA GPU,平行计算平台CUDA与Docker 的集成
(图片来源https://github.com/NVIDIA/nvidia-docker/wiki)
在节点内部,数人云利用nvidia-docker帮助容器内部的程序调用外面主机上的CUDA Driver。CUDA Driver及GPU Driver安装在外部Host上,CUDA Toolkit,及其它深度学习组件及用户应用程序运行在Docker容器中。这样既能快速配置环境,又保证了HOST不受用户应用程序污染。
在Docker容器中运行caffe device_query –gpu all的结果
数人云打造的GPU集群,将深度学习的任务分配到服务器上,采用分布式计算方法,极大程度上提高了GPU的资源利用率。
2015年6月,Facebook资助清华大学交叉信息研究院,成立中国唯一的一家OCP实验室,自2015年9月开始,数人云和清华大学交叉信息研究院助理院长徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作。今年3月,数人云联合清华大学OCP实验室完成“百万并发”压力测试,数人云通过10台OCP服务器成功承载了百万并发HTTP请求,并进行了广泛的性能测试。
好文章,需要你的鼓励
印度理工学院研究团队从大脑神经科学的戴尔定律出发,开发了基于几何布朗运动的全新AI图像生成技术。该方法使用乘性更新规则替代传统加性方法,使AI训练过程更符合生物学习原理,权重分布呈现对数正态特征。研究团队创建了乘性分数匹配理论框架,在标准数据集上验证了方法的有效性,为生物学启发的AI技术发展开辟了新方向。
英伟达和诺基亚宣布战略合作,将英伟达AI驱动的无线接入网产品集成到诺基亚RAN产品组合中,助力运营商在英伟达平台上部署AI原生5G Advanced和6G网络。双方将推出AI-RAN系统,提升网络性能和效率,为生成式AI和智能体AI应用提供无缝体验。英伟达将投资10亿美元并推出6G就绪的ARC-Pro计算平台,试验预计2026年开始。
Sony AI开发出SoundReactor框架,首次实现逐帧在线视频转音频生成,无需预知未来画面即可实时生成高质量立体声音效。该技术采用因果解码器和扩散头设计,在游戏视频测试中表现出色,延迟仅26.3毫秒,为实时内容创作、游戏世界生成和互动应用开辟新可能。