ZD至顶网CIO与应用频道 05月20日 北京消息(文/齐丰润): 5月20日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入了最后一个日程,在最后一日的全体大会上,青云CEO黄允松做出了的主题分享。他表示,“人工智能将会为云基础设施赋能”。
大家好。
我待会讲的内容可能没有那么炫,我这还是主要关注在基础设施,所以的话我不会给大家介绍这个机器人的代码如何跟人谈恋爱。
所以我会更多的强调,我们如何让我们制造的一些比较复杂的逻辑,然后来让我们在数据衷心的建设和运行的过程中,还有包括它的新的能力自动的开发过程中它能够使得人的工作变的更简单,使的我们的基础设施变的更可靠,我想这是两张图的合成,里边是机柜,这是大家都非常熟悉的,中间我特地加了这么一个效果,其实我想表达的意思是说,大量的我们在数据中心的所有操作,不是光火水电,还包括服务器,网络设备层面,更重要的是基础性软件层面,它会有很多我们可以去考虑的事情。
首先我们这几天大家听了很多有关AI方面的话题,我就不太花太多时间在基础的概念上来讲。其实的话,就跟云计算没有一个非常精确的定义一样,其实人工智能也没有那么精确的定义。至少在行业里面大家比较公认的三个方向就ANI AIG ASI,当然简单一点说的话,N解决的问题是带有很强的专业性,非常好举的一个例子就是医生,医生这行业是具有极强的专业性。并且他的经验可重用性非常强。这种情况我们落在N这范畴。G目前来说做的最多,比如说机器学习还有深度学习,它一是种模式化过程。专家系统就是落在N当中非常成功的例子,经过这么几十年的发展,专家系统本身也经过了好几轮的发展,最近这几年IBM有一个归结在现代化版本的专家系统。当然它也会带有很强的G层面的特性,但是我觉得它从根本本质上还是现代版,就是一个比较现代化的版本。
这个里面它有三个特点,第一个专家库知识非常大,而且还需要不断的有这种更新的过程这是非常重要的。以及为什么这种方法,专家智能对我们人工智能不显得那么炫,但是非常有用,因为它效率高,其实这东西就跟我们的人类生活是很好对应,有一些时候专家解决问题确实比较高效一些。当然我们把不够智能打一个引号,就卡你怎么看智能,如果你认为非常接近人的大脑叫智能的话,它确实不够智能,但是我认为对智能的尺还是要辩证一下,能解决问题低成本高效率解决问题都是OK,在G这阶段,我想的话有很多人会提到神经网络,但是我觉得太复杂的话,可能也超出了我这话题范围,所以简单神经网络对我来说是一个很好的应用方向。对我来说非常有效率,它有几个点,第一个足够海量的数据来帮助学习,以萃取模式。这里面有一个要求,就是要求模式不可以频繁无规律的变化,最理想的情况是模式能够相对固定这是最好。在这里面用比如说翻译、比如说图片的分类,和我们电子邮件那个里面最常用的反垃圾,这是非常多,也是我们各位在生活中现在广泛接触到。
这里面就是我们青云简单神经网络使显得时候,我们这过程是一个很标准化的学习过程,因为我们巨量的数据,每天都是大几百G体量的产生,而且飞速的进展中。我们基本上对所有的资源、用户行为和相关的应用程序,不管系操作系统还是中间层面还是分布式的调度和系统都进行海的监控,和获得数据。
所以这时候第一个数据是高度标签化的数据,我们可以非常清晰判断出来在青云这些数据什么类型和特征。这些算法是我们经验一部分,他自己可以产生一些他自己的规则。
于是我们得到折算的歇息结果,下面就是整个的预测过程,这个会将有效的帮助,我们在数据中心,云计算平台IAAS和PAAS降低故障率。其实这是一个很经典的分层结构,层次很清晰,最底层是硬件,包括我们常见的服务器、储存设备,网络设备、安全设备都在这一层。接下来我们看到I层就是标蓝色块,就是编排层和平台层。灰色的块不是我的领域。我们看到这个层次的话,我们将会看到在不同的层子在采纳AI实际上有不同的方向,而且区分是很大。我们先看第一个非常确定的层面。比如说硬件层面,就是偏硬件的,这个层面的话,它的应用方向极其确定,也就是说它的问题还有包括解决问题的方法。这么IT行业几十年的发展,基本上及其的规范,并且不同的工程师解决一类的问题的方法,都是一样的。我举一个例子,比如说网络通不通,或者是网络效果好不好,就是性能好不好。你作为工程师第一反应是什么。我聘一下,实际上不管是ABCD哪家公司的员工都会这么干。也就是说非常高度确定的成分上面,我觉得专家系统是最佳的解决方案。
这里面我们自己的专家库其实也不都是我们自己的经验,我们要求是将它变成一个很好的用来做触发和匹配引擎。这个东西在配合这样将会使得效率非常高效果,这地方就是你跟一个人打交道一样,请问你贵姓我说姓什么,请问你哪里人他告诉你哪里,请问你多大他告诉你年纪。
这种情况下的话,我们基本上就涵盖的东西,偏最基础的硬件和基础性软件。比如说JAVA相关的都是非常基础的标准件。我们去适配采纳简单层的国家,基本上解决最多的青云项目中还是上线之后运行过程,我们要怎么解决它,当然有很多点,我有半个小时,我就讲这几个小的点,第一个就是垂中之重的东西。这就意味着我们放在哪里这是最的学问。
第一个你当前的资源负载情况,比如说CPU内存条,还有你的网络AO。还有一个对于资源的相互使用偏重性,比如说我不可能在一个集群里面运行所有的都跟CPU相关的,我更加不可能将所有的内存负载重的东西放在同一个集群中,我最佳的运行效果都是相互交叉。从最早的时候我判断资源的负载情况,包括风扇的转类以及环境的温度,到后来看看,到现在越来越多的因素,乃至于一些历史的数据。在这里面你可以看到你的机房成千上万的服务器,但是一个公司有成千上万的员工一样。每一个员工之间他对公司的贡献,还有个人能力,以及历史表现,对项目中的认知度是不一样,同样那么多服务器在线上运行也不一定一致,这跟很多的因素有关,跟硬件的本身过程是不是有关系,也跟软件的版本也有关系。
平衡性就是来自于故障的预期和容忍的方法,所以再平衡的意思是说,在运行过程中负载不损害的情况能够到达另外的地方,这是需要花大力气,因为这是直接相关,而这一点所有的应用程序和开发厂商,和我们最终消费者最关心得失清。
在结点平分里面我觉得这里面很关键的东西,就是我们用到所谓简单神经网络的分析手法,这一点非常重要,这同时意味着大家需要做很好的工作。
最后一点的话,是一种非常强的一个,好像大家出门打车,都看一下软件,以及出差到夏季出飞机,大家买机票之前,一定会看天气预报,为什么?如果不看天气预报,你买了机票也到达不了目的地,所以这对于我们生产环境非常重要。灾难如果已经发生,你再去解决灾难的话,这一件事情客户体验非常差。我们在青云的项目中花了大量的项目就是类似于天气预报,这一件事情就是宁可错杀多少也不可漏过一个。为什么我们要去做这样的事情呢?尤其在S层的一旦发生硬件灾难的话,这种情况在X86领域广泛存在,就是这种概率极高技高,巢湖你想想的高,这种情况一旦发生了之后,无论是船间层面调度做的多么好,总之客户一定发生,在这种情况下根据预期产生进行一个简单的模式。
这个里面还有一个很重要的事情,就是跟管理员之间的互动,一个就是警告,得到人类管理权自我的反应,后者的话可能风险性比较高,这够取决于你们各位的期待。就是无参与的管理与运营有多高的期待,这两者实际上是一个人的管理员所制定的政策。
我们看一下另外更重要的话题,如何来进行管理,你旗下数以万计的物理设备,并且分散在中国大陆不同的城市,像我们目前截止上个月数据中心16个,其中8个在直同,还有8个是合营。你想想看这么多数据中心,我们如果要用最传统的方式进行管理的话,这个成本是非常高。所以我们如何来进行看整个云平台的运行管理系统,这个里面最关键的一件事情是打破层级结构感觉模式,使之变成网状管理,这是最关键,这个心状图其实再划两级节是层级树桩图,这种结构量不是特别大,分散度不是特别高的时候是非常有效果,这种效率非常高。但是这就技术决策的平衡。我们需要看到新的效果是这效果,在这里面我强调一下,就是管理的东西并没有消失,只不过从一个非常具体的变成了数组,它可以根据决策到任何一个被选举出来的结点身上,这里面最关键的一点就是说我们要引入一个选举的机制,这话题我讲过两次选举。但是我们没有这么做,没有做的原因要追求效率,还有你的民主制度完美性平衡,我们选择的是后者,就是所谓我们会设定一个选举委员会,由选举委员会来决定,到底谁会成为下一个管理结点。或者有的时候没有灾难,我们因为负载的情况也会重新平衡管理的职责在谁身上。简单地讲就是可以高处乱窜的模式。
我希望大家能够更好的看得到,就是在身上如何运行各种的小型软件机器人。不同的功能都单一,我不允许具备复杂的人能力,我举一个例子,最近这些年到硅谷到北京,全栈工程师,在我云端感觉系统里面这个对不适用,我不需要这样一个模式,我只需要管理一个事情就好,所以有人会看HDD,有人会看二层网络,有人看三层网络,还有人看更高层,安全也会分好多层次。所以在这里面的话,我们要看到的在每一个会有不同的,因为我们这边有超融合,不管是硬件领域还是软件领域,因为我不太可能为你某一个应用去做一个固定的盒子,这盒子里面只有硬盘,所以我CPU、网络,这些东西我肯定会配备的非常完整。
我看一下我们自己的项目中,但是这给自己做一个参考,我们项目中做了哪几个事情,这事情是比较好,当然有更多,到时候我们如果有新的成果,可以再跟大家分享。
目前花了很多力气,我认为效果比较好。至少不需要人去参与。第一点是监控,这监控大家千万不要觉得司空见惯很简单的事情。一切都在力度和深度,以及它的非常短,已接近与你需要的秒级,这里面脚印一定要轻这一点非常重要。如果你做一个非常重载模式的话,这套系统运行起来的概率非常低成本相当高。
第二点是说层级化的多路径的日志汇报链,这一点很重要,我看过一篇报告Facebook的层级,你可以看到当时的版本,当时是单一路径的指向,这种模式会使得系统的维护性需要有人的参与和管理。如果我们真要做到这高度的智能化的话,路径的选择首先第一一定是多路径的状态,第二路径的选择一定是决定,而不是你作为一个管理员来决定的。
第三点的话分析,这一点我们没有自己没有创造太多的东西,我们只是做了数学模型,我们采纳的工具也是各位非常熟悉,静态数据,这一点每个人对自己的模型都比较清楚。
第四点是消息、事件驱动。这是一个非常老的话题,但是我想这里面最重要的一件事情,我们由原来的企业级的这样一个消息传递模式,比如说MQ五,我们要演变成今天所谓互联网模式的像微信这样的系统。我就认为它是一个就好像很多年前,很多人会把航班信息发在某一个下面,让消费订订阅它,航班有没有延误。就是发表和订阅的过程。我们在整个青云的系统,因为是我们横跨很多地域,设备量非常大的。我们高度分散去中心化,将会使得我们的系统相互之间对对方的情况了如指掌。就不会存在说我跟你离开太远我对你不了解,不会这样子的。
前面是我们现在做过的一部分事情,下一步的话我可能会在这两件事情上比较多的时间,第一个是跨越地理位置的协同决策,这一点的话对我们一致行动非常关键,尤其当我们扩张到印度跟美国这两个国家之后,我们将会更加需要这种协同决策,这一点我们已经投入了很长的时间,希望在今年年内面市。第二,对于我刚才讲的神经网络的模型,我自己非常渴望在生物级的神经网络上面有所足够的解决两个事情,简单点说我们希望可变的情况下它也能变的相对智能,所以这就是我可能会考虑要打算做的一个情况。
好,谢谢大家。
好文章,需要你的鼓励
富士通的 Monaka 是一款巨大的 CoWoS 系统级封装 (SiP),它有四个 36 核计算小芯片,采用台积电的 N2 工艺技术制造,包含 144 个
ChatGPT还与超级应用WhatsApp完成了集成,同样是这个号码可以直接发短信咨询各种内容,使用方法和web、移动版本一样。
十年前,如果你问某人什么是互联网,他们可能会说它是在计算机屏幕上查看的网页的集合。当今的在线体验依赖于应用程序、设备、流