ZD至顶网CIO与应用频道 11月09日 人物访谈(文/王聪彬):如果讲开源的发展史可能要说上几天,但在基础设施层还是有一些分水岭技术。在使用开源技术上,企业最开始集中在Puppet、Ansible等配置管理工具,实现批处理功能,云计算出现后,OpenStack、KVM等技术得以发展,在数据量不断攀升后,Hadoop、Spark这些分布式计算框架也成为企业的实施目标。
尤其是容器技术出现后,企业不仅仅使用OpenStack来管理虚拟机上的应用,还在管理容器中开始考虑Mesos和Kubernetes来管理应用,他们的出现是对之前IT部门工作方式的变革,进一步简化了工作流程。
最近阿里云与Docker的合作给Docker在中国市场的发展更多的信心,数人云也会秉持以应用为中心解决IT变革,利用基于Mesos的数人云操作系统帮助企业降低IT基础设施门槛,在这个过程中正积极使用Docker相关技术让自身更加多变。
走好开源Mesos这条路
我们再来具体聊一聊Docker中的几个编排工具Mesos、Kubernetes、Swarm。它们分别从2013-2015年之间被提出,数人云CTO肖德时表示,这些技术想要实现的目标基本相似,都是解决数据中心操作系统调度这件事。
数人云CTO肖德时
数人云选择Mesos其实也没有特殊原因,在2014年创业之初Mesos是当时在传统企业应用中相对成熟的技术,像Apple、Twitter、去哪网、爱奇艺、小米等都在使用。
2016年数人云完成了一次产品的迭代,数人云操作系统2.0实现了应用管理、监控告警&日志查询、应用编排&应用目录、持续集成&镜像构建四大功能。近期3.0产品也将要发布,除了功能上改进外,最重要是将一些开源组建进行重构更加可控。
“容器只是解决企业运行时的状态,但是在实现的过程中企业需要做很多改造。”肖德时说,在和很多客户交流时它们的改造会深入到逻辑,也就是微服务层面,之后才是我们的产品要怎么在改造后的环境中应用。
数人云会一直沿着Mesos技术栈进行研发,在基础设施之后就是大数据,如何快速的将大数据容器化部署到操作系统中支撑整个业务。企业IT基础设施分为开发测试环境和生产环境两部分,肖德时认为,在做完持续集成和持续交付(CI/CD)应用生命周期相关的业务后,数人云将开始大数据业务的延伸。
Crane快速搭建DevOps环境
Docker 1.12 版最大的性能之一是Swarm模式,在Docker 1.12(RC)版发布之前几周,Docker发布了SwarmKit作为编排分布式系统的开源项目。所以也就有了Swarm和SwarmKit两个版本,旧版Swarm是参考Mesos、Kubernetes做的一个开发框架,另外基于管理集群的方便性,原有Swarm集群和Docker本身是两个组件,基于融合的想法又出现了SwarmKit。
数人云的核心技术是Docker,本着自我学习和让开发者更快速体验Docker新版本功能的态度,数人云也有了用Docker最新技术做点什么的想法。
所以数人云投入工程师用了一个月时间,在今年9月6日发布了基于最新SwarmKit的容器管理面板Crane,这也是国内首个基于SwarmKit套件的容器管理工具。Crane可以帮助开发者快速搭建DevOps环境,体验Docker的最新功能,一条命令在几分钟内即可完成安装。
Crane做的是怎么把不同设备上的容器通过一个面板管理好,数人云在设计时也参考了Docker管理面板。当然这并不是一个简单Copy的过程,而是用开源SwarmKit实现了同样的功能并回馈给社区。
Crane可以说是低调上线,这和商业化的数人云操作系统形成了鲜明的对比。肖德时说,Crane目前只是一个工具并非产品,是完全免费的,未来也会保持开源的状态,而且Crane的使用者和数人云操作系统也有所区别,主要针对开发者而非企业用户,当然两者也会有一些互动,毕竟底层技术是相通的。
该项目遵守Apache 2 License,可在https://github.com/Dataman-Cloud/crane浏览、下载代码。目前,其在GitHub上的Star数超过500,Star的数量也反应了开源项目在GitHub上的热度。最近Crane还做了两次小版本更新,支持像Mac系统等一些特性,在社区也得到了很好的反馈。
数人云的变化
虽然Crane并非商业化产品,但可以说这是数人云的一次变化。在客户层面数人云还会继续保持轻量级PaaS的方向,解决多租户、操作系统、资源分配这些事。
数人云现在既有企业版产品数人云操作系统,还有多个开源项目。除了容器管理面板Crane,数人云还开源了Mesos调度器Swan,用于Mesos环境应用管理。Marathon和Aurora是大家所熟知的Mesos框架,通过开源Swan,数人云将最新研发成果与社区共享,为开发者提供了一个新的选择。
在数人云操作系统的应用上未来也会越来越多地伴随微服务的改造,上交所就是其中一个典型案例,所以数人云未来更重要的是探讨如何配合改造后的企业深度应用。运营商、金融是数人云目前主攻的行业,未来还会拓展电商、直播这些行业,这是从传统企业慢慢转向互联网企业提供服务的变化。
最近数人云还参考Google SRE理念与复旦大学达成合作正式开课。SRE目前已成为一个涵盖运维理念、思路、组织架构、和具体实践的完整体系,而且SRE也是DevOps思想在运维领域的具体实践。这不仅可以传递SRE的理念,还可以用过数人云操作系统帮助国内客户落地DevOps最佳实践。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。