ZD至顶网CIO与应用频道 11月14日 北京消息:近日,数人云与清华大学交叉信息研究院开放计算项目实验室(OCP实验室)合作共建深度学习平台,该平台通过数人云操作系统实现GPU资源共享,利用Docker技术交付深度学习的运行环境,让深度学习项目组师生可以更加灵活地使用GPU资源,并解决深度学习环境部署繁琐的问题。
深度学习算法的计算性能依赖强大的GPU计算能力,为了尽可能提高GPU资源利用率,数人云利用Mesos将GPU资源汇聚成资源池实现资源共享,并借用Docker交付深度学习的运行环境。
深度学习平台利用nvidia-docker ( https://github.com/NVIDIA/nvidia-docker )容器化深度学习组件,同时,借助数人云搭建GPU集群,共享GPU资源。最终,为用户提供了可一条命令部署深度学习环境的平台。
NVIDIA GPU,平行计算平台CUDA与Docker 的集成
(图片来源https://github.com/NVIDIA/nvidia-docker/wiki)
在节点内部,数人云利用nvidia-docker帮助容器内部的程序调用外面主机上的CUDA Driver。CUDA Driver及GPU Driver安装在外部Host上,CUDA Toolkit,及其它深度学习组件及用户应用程序运行在Docker容器中。这样既能快速配置环境,又保证了HOST不受用户应用程序污染。
在Docker容器中运行caffe device_query –gpu all的结果
数人云打造的GPU集群,将深度学习的任务分配到服务器上,采用分布式计算方法,极大程度上提高了GPU的资源利用率。
2015年6月,Facebook资助清华大学交叉信息研究院,成立中国唯一的一家OCP实验室,自2015年9月开始,数人云和清华大学交叉信息研究院助理院长徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作。今年3月,数人云联合清华大学OCP实验室完成“百万并发”压力测试,数人云通过10台OCP服务器成功承载了百万并发HTTP请求,并进行了广泛的性能测试。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。