科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道人物王志东:云计算是个筐 真云假云不重要

王志东:云计算是个筐 真云假云不重要

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

上面我介绍的是背景,那么云输入法的优势,会带来三个优势,第一个方面是数据上,第二个方面是更新上,第三个方面是计算上。主持人:谢谢杨洪涛给大家分享搜狗输入法的实践,休息十分钟,再请王总和杨总,方总跟大家一些分享一下云计算问题的探讨。

来源:CSDN 2010年6月30日

关键字: 网络

  • 评论
  • 分享微博
  • 分享邮件

点击科技总裁王志东

  “现在云计算很火,好像每个人都在讨论云计算。 说法很多,很多人都想知道,到底什么是云计算?”在昨天下午的CSDN CTO俱乐部第24期主题沙龙上,点击科技总裁王志东向与会的数十名技术管理者分享了他对云计算的理解。

  云计算是个筐,什么玩意儿都可以往里装

  “原来云计算是个筐,什么玩意儿都可以装:用户议论的其实是SaaS和Utility Computing(公用计算);工程师和学者关心虚拟化、网格、分布计算、并行计算;至于厂商嘛,看看自己口袋,里面有啥,云计算就是啥!“一个月前,在看完第二届云计算大会上各家的发言后,王志东很有感慨,在自己的新浪微博(http://t.sina.com.cn)中如此写道。沙龙上,王志东以此为引子展开了他的讲演。

  王志东认为云计算是个非常成功的营销概念。“因为越是定义专业精准的概念,市场覆盖面会越窄,余地越小,大家都觉得高深。”而“云跟计算有什么关系?就因为没有关系,给了大家无数想象的空间,于是一大批的专家,甚至一大批行业外的人都纷纷在讨论云计算,大家根据自己的理解来谈什么是云,天上的每片云形状都不一样,每个人说出来观点也不一致,这样云计算就炒作的越来越热。“

CTO俱乐部第24期沙龙现场

  探讨谁是真云谁是假云没有意义

  为什么没有意义?王志东解释道,当一个概念刚刚兴起,在技术上没有彻底成熟或者在这个市场上没有绝对的垄断者时,每个人都可以有自己的一家之言。厂商更关注是否采用云计算之后,成本是否更低,业务是否扩大。而对于用户来说,更关心你的服务是否比之前更好。

  王志东以电子商务(电商频道)的发展举例,他说电子商务刚起步时,曾嘲笑一些公司只是挂了电子商务的皮,是假电子商务,然而经过几年发展,那些掺杂传统手段的电子商务不仅生存下了还迅速发展壮大,而那些所谓的真电子商务企业多被淘汰,最终他得到了一个经验,碰到一个概念,没有必要讨论是否正牌,真正重要的是提供有价值的服务。

  在随后的对话环节,他建议CTO们不妨以功利心态现实看待云计算技术,要先摸清楚云计算是否会给公司带来切实的好处,这样才不会被那些云计算服务提供商牵着鼻子走。

对话环节

  移动互联网与云计算是相互促进的关系

  当前另一技术热点是移动互联网,由于和云计算所宣传的优势有所契合,有些人认为Appstore等新型公共平台也是云计算的表现形式,许多人并不清楚两者之间的关系。

  对此问题,王志东认为,移动应用有三个特点,第一、客户端基本偏瘦。第二、由于可以随身携带,使用几率更高。第三、大部分移动设备现在都可以联网。这三点特性会使得移动应用非常注重前后端的配合,最终就会促成对后台计算需求的增加,而且是爆发性的增加。云计算作为构建高性能计算系统的一种模式,对其是非常有效的解决方案。

  正是基于这一点,所以移动应用的发展对于云计算是个很好的促进,而由于云计算对于大量后台计算能力的提升能力,所以对移动应用的发展也有推动。但不是所有的移动应用都是云应用,是否采用云计算技术应根据应用的各方综合因素进行考虑。

  以下为发言实录:

  主持人:在这个过程我们发现有一些公司的销售人员,希望带着销售目的来的一些人员,请大家注意一下,本身不希望把这个活动变成一个销售的渠道, 我想请大家不注意的话,以后会把会员删掉。

  非常感谢大家参加今天第24期CTO俱乐部活动,今天非常有幸请到两位嘉宾,还有论坛的嘉宾,一起分享云计算主题的话题,第一位隆重介绍一下王总,当时我做杂志的时候,做点击科技做过一些采访,跟王总比较熟悉,今天听他来讲一下云计算的观点。第二位是杨洪涛,搜狗输入法做得非常好,前一阶段推出了云输入法,他向大家介绍一下云计算输入法的实践,非常值得期待。第三位还有论坛环节的主持人池建强,接下来把话筒交给王总。

  王志东:谢谢各位!不好意思,这两天有点感冒,所以嗓子比以前更有磁性了,很高兴来参加CTO俱乐部聚会,这个俱乐部一成立开始,一再邀请,一直找不到合适的话题,刚好一个月之前,我在微博上面有碰到,正好上个月召开云计算大会,我一看上面有云计算的话题,我就说了几句,被逮到了。今天我跟大家坦白一下,云计算我绝对不算专家,而且我很多的观点应该都属于非主流的观点,所以我今天来跟大家说,想讲外面一套一套的理论讲不了,我能够把云计算想法和观点跟大家分享分享,我也希望待会有时间多一些互动,所以我想把这一方面能够好好交流和聊一下。

  我在一个月前微博上面,我写了一个名字,我看完云计算大会上各家的发言,看完之后我很有感慨,我说原来云计算是一个筐,什么东西都可以往里面装,用户讨论更多的是功能计算,工程师和学者他们关心更多是虚拟化网格,分布计算和并行计算等等,各家厂家更有意思,每个人翻翻自己的口袋,里面有什么,什么就是云计算。

  现在云计算所有人都在说,都在谈,我觉得从我所知道最早谈云计算就是Google,后面是IBM,后面又加上微软,现在国内包括像瑞星,360都在提云安全,搜狗也提出了云输入法,云存储,云安全,甚至前几天看到了云餐厅,是在世博会看到的。其实一说到云,外面说法很多,很多人都会问这个问题, 到底什么是真正的云?我在大家分享我对云的理解之前,我先给大家分享一个观点,其实有的时候什么叫真正的云?也许并没有什么意义,因为云计算这个概念完全是一个市场营销的概念,其实包含着内容的确是在经济领域,在过去几年甚至十几年,几十年里面一直都有谈过,比如刚才我提到哪些名词,什么SARS,网格计 算,并行计算等等,所有这些都是我们现在谈论的计算机的一个基础,很有趣的一点,过去我们谈各种的名词,那些概念其实蛮精确的,并行计算,(英语),但是越精确的一个概念,在市场上活动的余地越小,大家对它不理解,这个太高深,理解了觉得面会太窄。所以什么叫云?云跟计算有什么关系,就因为没有关系,给了大家无数想象的空间,于是一大批的专家,甚至一大批行业外的人都纷纷在讨论云计算,大家根据自己的理解来谈什么是云,说出来我觉得最大的好处是什么?这么一说,每个人就算是天上的云一样,每片云形状不一样,想它是什么,结果每个人说出来观点不一致,一超起来,越炒作就越热,云计算是IT很成功的营销游戏, 这个游戏把大家都聚集起来,所以我说它是一个筐,这个筐是很正常的一个事情。

  第二个什么是真云,假云,为什么没有意义?其实在任何一个技术它没有完全彻底成熟,或者说这一个技术在行业内没有绝对的一个垄断者,因为市场的绝对垄断,他就有绝对的话语权,他说我说什么是云,什么是Windows,什么是操作系统,他说了算。但是一个新概念刚出来的时候,的确没有老大,随便你 怎么说。其实对于用户来讲,你是不是真的云,我更关心你提供这个服务是不是比以前的服务,或者比别人的服务更加吸引人,或者我作为一个厂家来讲,我既有到 云这个领域,我用云的方法来做的产品,是不是比原来的成本,是不是让我的产品有更好的一个集中度,能让我的业务能够更快的成长。我分享一个,就是我们原来 做网站的时候,我们经常是笑话很多所谓的假电子商务,假互联网,尤其是电子商务,电子商务骑着自行车叫电子商务?你用的货一手交钱一手交货叫电子商务,派 一大批人到机场派卡片叫电子商务,我们都说它是假电子商务。其实几年下来,当时是搞真电子商务都垮了,当时我们说是假电子商务的做起来了,其实我觉得不管对于厂家,我们在碰到这个概念的时候,我觉得没有必要过多的去争谁是真的,谁是假的,谁的血统是正宗的,是谁杂牌的,没有关系,它是有价值就是好的,这就 是这几年我们做互联网得到了一个很重要的概念。

  我现在虽然不知道真假,但是我能说出我对云计算的一种感受,那么什么是云?该怎么比喻和有什么样的看法,我对云最深刻一种印象,就是所谓的云其 实都是由无数个小颗粒组成的,天下的云彩都是一个很小很小的小水珠,这些水珠小到可以飘浮在大气层,小到只有有一点点空气的流动都可以托起来的,但是这么 小的云如果有足够的量聚集在一起的时候,你离几公里,几十公里,离多元都能看到这个云,而且这个云真的发起威来很厉害,现在南水都是靠小颗粒的云造成的。 比如还有一个新云的概念,如果我们往天空看,通过望远镜,经常发现有一个新云,新云有很多的新云,有很多的尘埃组成的,但是更多的新云你看到的是一片,其 实到了那边可能就是由几百万个恒星组成的,为什么是云,因为太多的,太远,最后连成一片,就有点像云。我对云的感受,就是有无数小的颗粒,小的个体组成, 每个颗粒都是非常渺小的,但是组合的话,可以变得非常强大。

  那么由这个云再来重新理解云计算,我第一听到云计算的概念是从Google来的,我是非常敬佩Google,现在也许我更加敬佩是苹果。 Google当时进入中国之后,从李开复开始,还有好几届Google的主管在谈,说Google的核心竞争力在哪里,因为我很奇怪,我说Google做 Andorid,早就做烂了,为什么又重新做起来?后来他们几乎Google里面所有的人都跟我说,他说Google真正的核心竞争力不是那套算法,而是我们有一个全世界最强大的计算机群,就是Google的服务器群。我说这个服务器有多强大?我们最强大的原因是因为我们每一个服务器并没有用IBM,(英 语)的服务器,我们的服务器都是从超市里面自己买来组装的,这是我们的服务器。那个时候跟我说的时候,现在有30多万台,我们自己组装的,就是自己组装的 服务器群,当然现在这个服务器国际已经过不了关,超过100万台组成的计算机群,这100万台服务器是什么样的概念呢?当时他们给我提,当时是30多万台,我们自己认为服务器在超市自己装的,24小时开机,一年坏一次,这个机器功能稳定性相当不错的。如果有36万台服务器同时运行,每台服务器一年有一次坏的机会,那就意味着每天有1千台服务器会坏掉。我们碰到一个坏服务器怎么办?我们有一个很很大的服务部门,每天组织1千台的服务器出来,然后所有坏的机器直接卸下来,就换过去,一部分人专门干这个事,现在是100万台。这个是Google的真正核心竞争力,我找了一个照片,就是在网上公布的,不知道是第几代服务器的原型,是他们自己装的。

  我在理解Google为什么会率先提出云计算呢?他所理解的云计算,我相信就是针对他自己的几十万台服务器组成的计算机群而发出的感慨,因为有 那么多的服务器,这些服务器通过并行计算和分布计算各种方式,连成地球上最庞大,功能最强的计算机系统,而且这个计算机系统能够根据业务的需求,能够随意 的变化,30万变50万,50万变80万,80万变100万。这样一种能够随着业务在随时扩张的服务器群,他觉得这个就是一个一个的个体组成了这么一大片 的云。所以我理解云计算最重要的一点就是要有一个整个海量资源,具备最强的扩容能力,也就是说所谓叫(英语),这样的一种能力,这是云计算最重要的一个特 点。如果要总结一句话来理解云计算?我觉得云计算应该是构建高性能计算系统的一种模式,高性能计算系统有很多种做法,但是云是一种构建的方法,它的最核心 的特征,就是我刚才所说到的高延展性。高延展性其实包含着两个层面,第一个层面在于系统构建的时候,它具有延展的能力,它不断去扩充它自己的系统,而且这 个系统扩充的效果又具备相对好的一个可维护性和性价比,因为有很多的服务能不能对外成功,取决于这个服务成本能不能达到经济性。Google现在能够提供 7个多G,而且这7个多G真用了,我那里不够了,他鼓励你所有的邮件留在里面不删。新浪为了提供50M的空间,成本在流血,一上来我们就急,我们就特别纳 闷,中国的网友给你空间你还真用,但是如果说Google还是用原来的方式来提供服务,它绝对承载不了,因为他有了这种云计算的模式,能够把成本降下来, 性价比大大提高,这个服务就能够提供了。第二个要做到这个负荷能力,就是在提供用户服务的时候,针对用户不断规模的增长,服务地区的一个扩张,在要求能力 强度,服务强度的提高情况下,我这个系统能够最好去适应,我相信Google这个云计算平台能够保证每天服务,还能保证很好的性能。

  核心是(英语1),但是涉及的技术有100万台服务器连起来,真的要实现要有很多的技术去突破。比如说并行计算的技术,分布计算的技术,网格的 技术,我在看Google介绍自己服务器的时候,他特别提高它的电源技术和降温技术。如果还要往外服务,还会涉及到像安全、计费、资源的调配等等很多相关 的技术,会跟它有相关。但是有一点,我所理解它的核心就是(英语1),之所以叫云计算的最根本的原因。

  云计算是构建高性能计算系统的一种模式,但是这个模式怎么去应用呢?其实这里面分了几个观点,第一个云系统或者说构造出的云平台,是可以为大家 服务的,也可以完全自用,不应该自用就不叫云计算,很多人谈到云计算,都会谈到以后都放在云上,我拿一个手机客户端我就可以随时访问了,这个概念是公用计 算的概念。云计算是构造公用计算的一个最好的模式,但是并不是所有的云平台都必须得做成公用计算,反过来并不是所有的公用计算都叫云计算,这两种关系没有 必要的联系,只是说我们目前用云计算的方法来去构造公用计算,这是一个非常好的模式。Google整个云平台绝大部分能力是来支撑他自己的需要,支撑他自 己的搜索,支撑自己的各种各样的应用。所以云计算对外可以是提供平台的应用,也可以提供应用,云平台也可以是对外服务,也可以是自我服务,现在谈到 SAAS和公用计算,其实都是云计算现在认为最被看好的一个应用领域而已。

  我们在谈云计算的时候,我们经常会提到,最好的云是Google,他们是非常经典的云计算,实际上我认为还有一个非常成功的云计算平台,被大家 忽略了,因为这个厂家自己不做这个炒作,然后所有人觉得SAAS都没有提,我觉得按照我的观点,Skype做的一个电话系统是一个非常标准的云计算平台, 我对它的理解是急于可管理P2P传输网络的一个虚拟长途电话运营商。大家很多年注意Skype,当时我也很奇怪,Skype给我最大的一个震撼就是音质问 题,专门给它做音频编辑码并不属于Skype,Skype也没有把它买了,或者变成独家了,用并不昂贵的价格去买他的系统,所有做云视频,有一种语音都在 买他的(英语),Skype为什么不把这个语音编辑码买下来,他觉得不是他的核心技术。我们回过头看看,其实在Skype成功之前,UIP技术早就成功 了,我记得在96年到旧金山参加一个会议的时候,那个时候以色列有一家公司已经在宣传他的UIP技术,用得也很好。UIP早就成熟了,为什么到了 Skype才能够成立,很关键一点Skype有一套最低成本的,而且相对最高质量的一套互联网语音网络,这个网络用传统的方式到各个地方建立服务器,这个 服务器加上带宽,这个成本加起来,会把这个业务压垮。S这帮人原来做P2P文件传输,后来做Skype用了一套可管理P2P的方式,去构建了这样一个网 络,使这个网络基本实现了全球范围之内点对点之间很好的语音流通讯,我们如果用Skype这样的观点来看,我相信Skype一定是云计算的一种,只不过 Skype并没有提供给第三方,只不过把这个应用提供出来。

  我之所以那么称赞或者解释Skype,其实点击科技也在做了一个类似的事情,就是我们做了一个叫(英语)的系统,我们目标是做一个基于可管理 P2P技术一个应用层虚拟网络,因为应用层虚拟网络我讲了几个层面的应用,一个层面就是我们是实现了一个虚拟IP的概念,虚拟IP就是用一个GIB的一个 号,来代替IP,现在互联网拿了本地IP是没有用的,因为IP是都是动态的,把现在用的IP告诉你,这个没有意义,除非你在同一个网上。我们现在能做到在 虚拟IP这一层我们已经能够实现提供一套GIB,这个GIB在网上登陆之后,你知道我的GIB互联网任何两个点之间就可以连接,第一能够定位,第二个实现 通信通道,可以发送文字信号,可以传输文件,甚至可以传输语音流和视频流。怎么实现点对点通信,有很多的方法,有UDP等等。但是用了一个由综合的技术加 上现在有差不多500万台活跃的机器,就是在国内的网络上,最高在线是超过50万台,不同层面由个人PC到服务器,组成了这样的一个网络,最后实现联通, 点对点的联通基本上可以做到百分之百联通率,这是我们做的第一层。

  第二层虚拟的FTP层,我有一个文件上传,对方有地址,我们用P2P的方法提供了这么一层,这一层用P2P的方式提供全套的IPA,上面也都列 出来了我们可以实现文件组的传输,而这个文件组的文件量可以做到至少几十万个文件,上层应用有几个应用用到了,我们做了一个游戏,一个游戏就几万个文件, 一千个游戏要同时维护,几十万个文件要做支持。我们在传输的时候有一个增量更新的技术,这边一组文件已经有了老的版本,出现了一个新的版本,我要继续传 输,我们系统自动做文件的对比,这个对比不仅仅是对比哪些文件该更新,哪些文件无效更新。我们是一个(实道)的文件可以去对比,发现这个文件改了,但是只 有1M的更新量,这是增量更新的技术。然后第三层是用到前面的两层,我们是做到虚拟应用流的技术,什么叫应用流?有点像视频由下载播放转向BOD一样,我 把很多的应用原来也是下载安装,我们变成即点即用,我们把客户端的一个程序可以安装在云上面,然后你从客户端去启动,中间有一层虚拟操作系统的层次,通过 这个层次这个软件可以安装,而且最快的速度。我们利用虚拟应用流做开发的一个游戏盒子,本身是两兆多的大小,下载之后有8千多款游戏,里面包括有100款 是网游,10个G的游戏都一样。你看到哪个游戏想玩,你只要一点,然后加载传输,关键的时候两个G的应用,大概是加载200M左右,这个程序就可以进入 了,游戏就可以进入体验了。我们可以看到,在我们LovoNet其实也是具备云计算的一个特点,因为他是已经由50万到500万组成的一个对外的,最底层 可以说是云传输,下面会发展成云存储,它能够给上层的应用提供相应的服务。实际上很多人在关心点击在做什么,我们这几年最重要的心思就是在建立以下的云传 输的平台,至于现在外面所开放出来一些应用,比如说LavaNet的应用,还有游戏盒子的应用,再跟很多合作伙伴开发网吧游戏三维更新系统,就直接用到我 们的LavaNet,来进行游戏的更新,这些都是平台上面的应用,也可以说是它的一个成功案例。

  最后跟大家分享另外一个话题,这个话题也看云计算的未来,这是在6月2日的时候,也是在微博上面写了这么一句话,因为微博只能140个字,把原 来写了东西都删掉了,最后就是100多个字。媒体要我写一篇稿子,要我预测一下12年以后IT会有什么样的趋势?要预测IT,预测本身就不靠谱,预测IT 更不靠谱,IT变化太快。所有的IT极少有凭空而来的,大多数情况看到现在的技术就可以看到苗头,这些技术越来越成熟,这些技术越来越融合,这些技术由实 验室走向大众,于是IT的革命就产生了。其实我们看到云计算是现在大家很关注的,其实云计算构造了一种高性能计算系统的模式,这种模式只要一成功,计算能 力会以更快的增长。除了计算能力在成长以外,我们还可以看到现在还有一系列的其他东西,比如说网络,网络除了光纤,有几个T的速度,有几个运营商提供。其 实网络除了刚才说了因特网的主干网以外,网络进一步的发展,会有包括像无线,像3G和4G,另外除了这种长距的网络以外,还有短距网,比如说蓝牙范围之类 的,现在大家用了甚至只有几厘米。除了网络以外,现在也是IT传播很多的,就是所谓的物联网,这可能是美帝国主义的一个政治产物,但实际是IT技术和IC 技术在不断的发展,甚至在传感和标签这个领域,现在的生物技术和纳米技术都有可能进入,我前几年看到美国人发明一个内裤,有几个生物感应器,这个感应标签 一上来之后,给一个士兵,一看内裤,然后就知道很多很多的特征。实际上这种传感技术、标签技术,包括四维技术,各种驱动的技术,现在一个小电动机都用纳米 的技术做,都看不见,能做出一个能转起来的泵,这个都可以相互融合。这个融合之后,只要有需要都可以装一个传感器,装一个芯片,让它自主或者被动,远的或 者近,能力强或者弱的,让它具备IT的能力,这个是完全可以想像。甚至传感器还可以植入到动物和人体里面,上次网上大家也看到所谓的第六感驱动,挂一个摄 象头,加上一个投影仪,加上一个后台软件的支持,这些可能都会有。还有一些所谓叫异恋感应,所有这些技术,网络技术,云计算的技术等技术都成熟以后,会出 现什么样的状况?很多年前有学者提过普适计算,现在计算还有一个计算机,以后计算无所不在,任何地方都可以有CPU,都可以做计算,现在做计算不用找一个 专门的计算机,而这个计算会跟空气一样无所不在。平时看不见,摸得着,但是你在生活、工作、娱乐过程中你无时无刻会感受到这个计算给你带来的一种便利,他 们起了一个很学术的名字叫普适计算。

  我想如果我们同样去参照云计算营销成功的案例,也许几年之后会有人正儿八经提出我们进入了一个空气计算的年代,人都活在空气之中,空气给我们提 供了足够的能量,看不见,摸不着,但是我们离不开它,这个也许会是一个云计算的未来。

  谢谢!

  主持人:谢谢王总给大家带来精彩的演讲!接下来我们有请杨洪涛跟大家分享搜狗输入法的云计算世界。

  杨洪涛:非常高兴今天有机会参加这个活动,跟大家有一个交流,我是来自搜狗公司的杨洪涛,一直在搜狗从事多面软件的研发工作。今天这个话题主要 是跟大家聊一下云计算,云计算确实是一个很热的概念,我立刻想到云里雾里,我主要从实际的角度来讲,就是在一个很互联网产品里面,是如何去利用这个技术, 然后达到产品为用户服务的一个最终效果提升。和输入法关系结合得比较紧密,因为从实际的层面来聊,会涉及到输入法,从传统输入法到现在的云输入法,里面的 差异是什么,云输入法带来哪些优势,云计算里面的方法和工具给输入法带来什么新的变化,或者未来的产品会有哪些新的计划,以及我们用了什么样的技术和方 法。

  首先我们来看PPT的标题,我们来看输入法的发展,大家都是经历过这个阶段,最早所见到的输入法,我叫古典输入法,那时候计算机还不普及,输入 法是一个专业人士手里的工具,学计算机是学打字,学输入法,我有这么一种概念,那时候水平高低强调是谁打字快,打字快蕴含的概念,一个输入法要求重码率 低。以王老师的五笔字形为代表一系列的输入方法,到现在各种各样的码,那个时期是在红火,最流行的时期,最主要是学习成本太高,几乎要从娃娃抓起,小孩子 学很多年才能学会。再过几年,就进入了传统的输入法,就是拼音开始有了,无论从微软自己系统里面开始有了这种单字的输入法,学汉字都是从学拼音开始的,都 是一种习惯的方式,它的问题在哪里?输入法的字库是最核心的一个构成,字库来自于专业语调,就是几万篇的人民日报的文章,拿这个文章里面新闻的句子,或者 一些描述来去分成词条,然后经过统计进入到输入法里面构成字库,分词做词名统计,输入词的时候按输入展现的频率高低。再就是随着互联网应用更多的流行,无 论是博客的领域,在网上创造信息的机会也变多的,传播的信息也变了,互联网的语调有很高的要求,我敲一个文字的时候,出来往往的输入法不是我想要的东西, 因为我的词语有很多的特点,比如说互联网的一些特点是口语化,有一些热点的概念,像搜狗最早做输入法曾经宣传过一个词,任何一个输入敲不出这个词,这是互 联网的特点。还有各种各样的互联网的领域,实在太庞杂了。

  搜狗其实05年开始发现了这么一个问题,这种输入需求没有被很好去满足,后来才有这个产品的诞生。再往后发展就是云时代,搜狗一个角度叫云输入 法的原因,主要面临互联网的语调有这么一个特点,实际语调非常庞大,需要做的运算量非常大,以至于你不用云计算的方式和方法是不可能实现,或者实现的效率 是非常低的,至于有多低,我会有一些实际的数据可以看到。

  我们先看一个感性认识,就是说传统的输入法,或者叫搜狗输入法以前传统的版本,在座都有碰到过或者听说过搜狗输入法,以前的版本或者跟眼下我们 在宣传,在往深去挖掘,去做云输入法技术一些感性的差距,比如说语调大小,就是我们用的原始用来做词汇,语汇的分析,传统有40GB,非常小,经过精选来 自于互联网的文章。但是在云的这个阶段,我们在TB的单位,1TB经过过滤和筛选之后的结果。还有词库,我们用TC版本,是安装在电脑上,数据不可能太 大,不到40万词的规模,但是云的阶段数据是存储在服务器,基本上不受限制,可以到2千万,甚至可以更高,上亿的数据量。另外一方面是指在计算方面,这个 词库非常大,但是说互联网的一个特点,更新特别快,每天都有新的概念,新的语汇,新的关心的热点冒出来,然后既然是针对互联网这种需求,必须满足信息的挖 掘,让用户去用到。传统的时候,因为数据量非常大,更新周期是比较长的,利用了云计算技术之后,把可以把更新做到实时或者至少是半实时。计算模式可以变成 串行变成并行,里面的算法过去是二元模型,有了计算能力才能够实现更复杂的三元模型,或者长距的模型。这种二元模型实际比较适合大型PC的计算能力,你觉 得你敲得还比较流畅,三元模型下来觉得不够了,大家到这个电脑上去用,觉得不能接受,这个电脑要很久之后才能给你结果。

  总结前面的对比,实际是在传统输入法的劣势,语调非常小,我们不得不在这个小的基础做非常复杂的工作,比较精华的数据,来自用户的语调,来自新 闻的语调等等,后台的模式也是单机的,非常慢,即便我们把程序的性能调节得非常好的情况下,也是非常慢,为了生成这个词库会跑一天的时间,其他一些词库分 类算法,或者其他语调的挖掘,有些程序一放一跑要一周的时间,一个程序还不包含写代码和改代码的时间,写好的代码跑要一周的时间,要下周才能发挥,然后一 个月两个月出两个事故,这个工作就做不到了,这是很严重的问题,词库非常小,只能收入一些很常用的词汇。更新模式我们会去尽可能挖掘网上的新词,语调多元 模型每个季度才能更新一次,更新是非常慢的。

  我们现在说云输入到底带来哪些信息,基础的一个知识所谓N元模型,二元和三元大概指的是什么样的计算在里面,首先语调我们整理出来之后,这个语 调整理是一个复杂的过程,简单说拿到了一大段的句子,各种各样来源的句子,然后对这个句子进行分词,比如把“今天天气真不错”分开,分成今天 天气 真不错,然后语调出来的所有词的频率,比如说在这个句子里今天出来一次,那个句子又出来一次,加起来得到了一个频率表,最终用户去使用这个输入法的过程, 敲拼音输入法,然后经历的过程是计算机把音节按照汉语拼音的规范,把它切开,比如说(我很),H和E不可能切分开,再找到每个音下面所有对应的字,因为一 个字有多音字,实际上展开是一个网络,然后我们再去计算字与字之间,或者单个字的频率,这叫N元模型。一元模型只看一个词,二元我要看到两个词,三元和四 元是更长的,考虑是整个句子的分析。一元的时候算法是拿“我”这个字在语调里出现的概率,乘以“很”的概念,再乘以“反感”的概念,结果哪个大就用那个。 我们知道传统输入法历史上成为有很多输入法都是这样做的,为什么导致用输入法用习惯了,大家不敲长句,一个情况不超过三四个字,虽然这个句子原本长,先人 工切成几个词,现在主流的输入法或者市场上其他的产品基本上在使用这个方法,就是考虑了两个词前后搭配关系,我们考虑“我”和“很”搭配之间的出现几率, 所以最后计算的时候就舍掉了。

  我们看一下二元模型,比一元模型更有整体性,原来考虑前后两个词的关系,计算复杂程度高,所需要存储空间比一元要大很多,一元只需要存储一个 词,二元模型比如40万的表,你需要的信息可能是40×40的矩阵,有些词可能不算搭配,我们可以把它压缩成一个相对小的矩阵,根据我们的实践经验大概在 400万二元关系,应该是一个比较实用,对效果有提升,然后不会太影响效率的量级,我们去装搜狗输入法大概是16M原装包。

  上面我介绍的是背景,那么云输入法的优势,会带来三个优势,第一个方面是数据上,第二个方面是更新上,第三个方面是计算上。

  首先是数据上,我们能够使用更大的语调,传统的时候只有40GB的语调,现在能在1TB的规模上,搜狗在07年实现了100亿网页的抓取,实际 上那个时候计算能力实现不了所有网页都拿到数据里面做一个分析,因为数据实际太大了,分析起来太慢,现在运行经验的提升可以来做这件事,更大的语调,里面 包含着更多的来源,因为互联网信息时代太复杂了,有官方相对权威的新闻,来自门户网,但是有大量来自网友产生的,还有还有无效的数据,比如说广告营销,或 者说一些SO所产生的一些垃圾信息,前一段时间我看过一篇文章,为了达到营销目的在博客上盗一些没见过的词,很生僻,你可能好奇,去点,然后发现是广告, 这个对语调的分析产生很大的干扰。中国古汉语是太发达了,语调非常大,大家的输入习惯又不一样,所以传统来说可能覆盖不了,传统输入法敲一个诗或者一个句 子的时候你不可能出得来。怎么解决这么大语调的分析问题,这个分析有很多的方面,刚才说到词频处理的一个核心问题,还有很多清洗过滤的数据,这是一个很复 杂的概念。简单来说,用了相对比较大的集群处理方式,我写了是大概是50个节点。从绝对数值上来看不是很大,跟业界相对领先的公司来讲,但是对输入法来说 已经有一个质的提升,里面用到的综合式存储,原始语调信息以及中间产生大量的辅助数据,然后用到了并行存储的平台,Google提出一个概念,实在是对业 界帮助非常大的一个工具,我们相应把一些语调分析的算法,或者说训练算法能够扩展等并行化的,过去可能用国际羽传统的运行计算方法,现在转移到新的平台上 来,因为新的平台发展也比较快,一直在更新,能够满足未来发展的需求,传统的东西相对慢下去了。实现了语调扩大了几十倍,也能够做快速的处理,甚至比以前 更快一些。

  这是做并行处理的例子,比如说语调的切分,就是1TB原始一句话的例子,是怎么把它切成词频统计,这是一个比较简单的问题。把一个句子切成一个 一个的词,很多平台因为用了数据,原来也用了并行计算,原来传统的计算要把所有的语调搞来搞去,传输的是非常慢,大部分的工作都在拷贝一个文件,但是有的 平台能帮我来解决这个问题。

  第二是N元对,把前后相同的N元对统一在一起,最后(Returer)来统计,现在的阶段就是三元,来统计它的次数,实际上有三次方的数据规 模。辞典优化,因为数据比较大,有一个压缩和化简的过程,目的是把长的N元对之间,本来不该长的东西给干掉,比如说“漫天大雪纷飞”,搭配起来概率是非常 高的,漫天大雪可能是一种二元关系,不应该是三元关系。最后通过计算,或者说数据上的处理,形成了一个云输入法所用到的非常大的一个词库,能够到两三万的 规模,里面涉及到各个方面的东西,这些东西都是传统输入法,或者过去单机PC版不可能收录的东西。包括一些专业词汇,医学上和化学上的东西,里面比较重要 就是网络热词,跟一些热点事件相关联的,比如说“哥只是传说”,这些都能进到这些词库里面去,你去上面做输入的时候,你关心的东西或者你每天都在聊的东西 能一下子出来的,还包括一些很奇怪的国外人名,或者一些地名,或者中国的一些传统表达方式,一些诗词歌赋,这是云计算给数据方面带来的好处。

  第二个方面是数据更新方面,因为互联网的特点是快速在更新,每天都有新的东西冒出来,我们叫实时对很多东西做分析,因为搜狗也做搜索引擎产品, 能抓取大量网页上出现的信息,然后参与搜狗输入法的用户体验计划大概有几百万的规模,他们每天敲什么词贡献给我们。然后来自搜索引擎每天在框里查什么,热 点的东西都在里面出现,那个收集是非常重要的。

  三个分析新的信息来源,然后在上面去做很多的统计分析,特别是时间分析,新的概念和新的词汇到底是什么时间出现的。你每天查什么,都会对这个输 入法产生贡献。这是更新的好处,更新的好处其实跟计算是结合在一起的,为什么更新那么快?实际上也是因为用了云计算方法进入之后,这种计算能够更快,所以 后台数据能够更新更快。

  第三个优势是计算,这个计算指的是在用户输入过程中需要前台的计算,冲击分析是后台的计算,你只要把你敲拼音提供到搜狗来的,再把结果给你,有 了云计算服务器之后,PC上是提供二元的,在服务器可以使用三元,甚至更好的语言来达到更好的效果。我们从做输入法产品第一个思路是提高大家敲字的工作效 率,过去敲一篇文章100个字,你要摁很多字键,你现在500字敲100字,现在提高到敲得更少,这是工作效率的提高,然后时间成本的节约,提高了社会效 益。搜狗现在有1个多亿用户,每个用户每天节约5分钟的时间,时间就是金钱,结果就是一个巨大的效益,搜狗输入法让摁的键字数越少。三元模型的一个例子就 是缓解工作压力,在三元情况下我们能够给出换届工作压力的关系,他的计算复杂度更高,要出现三个词的关联,所以功能增大。

  这个Trigger模型也比较简单,现在即便用的运行计算的方法之后,也只能做到3,做到4是没有希望的,所以用这个来做弥补,弥补就是远距离 两个词搭配的关系,比如说“决策部门为弥合收入差距的鸿沟集思广益时”,有很多固定的搭配,比如说“弥合鸿沟”,这种搭配实际在语调中统计出来的。三元的 时候是把三个词之间的搭配关系形成一个概率,再把概率算乘法,最后形成加权。三个关系搭配是非常稀疏的矩阵,因为大时候是往往不能搭配的。

  最终得到一个量化的一种评估,我们怎么来实现刚才提到的对用户输入效率的提升,是量化评估方法,就是拿机器人去敲键,敲大量的文字,不同类型的 文字,比如说来自于用户输入采集出来的,来自于论坛、微博的,去敲这些字到底需要敲多少次的键盘,或者选择多少范围,这里面最主要就是手选,在短距情况能 够使传统二元模型提高97%,再提高的空间也已经不大了,这个短距大概是4-7个字。然后领导一个重要的评测级,就是拿各个领域新闻文章,句子也比较长, 也比较复杂,这种句子就看到传统的二元算法能力是很乱,日常你敲10几字,不可能给你一个正确的结果。但是用好了计算之后,能够使62提升到85年,这也 是提高了一半的成绩,往后这里面还有空间。其实我们非常希望搜狗输入法能够扭转大家敲字的习惯,我们希望大家敲长一点,敲两三个字表现不出来我们的计算能 力,对你们的成本其实是浪费的,你要多摁很多次的键,无论是你的键盘磨损也好,还是时间的消耗。

  我们还会在复杂结构上做什么,我们把词模型形成类的模型,词形成的搭配是比较稀疏,就是低频词往往看到的搭配,因为最好的语调是要经过二元词 库,要经过压缩,里面不常用的搭配会过滤掉。漫天大雪我们要保留它,一些很常见的搭配关系不得不砍掉,如果能够把词的统计向上走一层,变成基于类的。方法 对所有词进行聚类,原则是一个词的上下文环境里都跟什么词搭配,然后把不同的搭配关系作为特征进行聚类。后面也一些聚类,当前眼下出来的一些结果,比如说 看到的一些例子,包括鞭炮声等等,这还不好区别,都是声。然后遵守各种各样的规则,我们在N元模型,如果一个词找不到搭配关系的,比如说“防风材料”这个 词,我觉得首先是属于一个类,然后把类的关系搭配,这样使用起来会更好。我们可以看到这个效果还是不错的。第二种比如“交什么费”,各种各样的费,各种各 样的券,各种各样的饭钱,罚款和罚金等等,这一类可以在相似的环境下出现。还有一条实际对语法结构做更多的分析,一看我们知道说需要更多的数据统计才能做 到,不然不可能实现。中文是有一些规定的规则和搭配关系,哪些词是属于什么样的语言里面的角色,然后利用中文句法的规则,加权到二元和三元关系里去。我们 学语文的时候都学到过,但是在以前计算能力或者语调的处理能力光搜狗做不到的,研究界也没有一个课题,没有一个单位和一个公司能够去做到,以前都说大家微 软拼音输入法元模型做得不错的,其实里面也没有什么复杂的,基本都在二元和二元改进的范畴里。

  说一点相对比较实践的东西,刚才说了三个方面的好处,数据的,更新的,计算能力的提升,到底我们去实现什么了,用了这些工具都是开放的东西,成 本都是比较低的,大家能够去应用的东西,这个概念其实也是提云计算很重要的组成部分,比如说虚拟化,虚拟化其实跟云计算没有很多的关系,但是带来的好处是 运营维护上的方便,自然成为大规模集成里面的技术。虚拟化搜狗用的SCN,带来的好处是比较大的集群里面部署非常容易,运行非常灵活,节省成本,还有一个 好处是我们的资源可以更灵活的应用,在一个节点我们要考虑很多的事情,比如说前台的计算,还有后台语调的发掘,还是信息处理,还是到程序上做测试,怎么把 决策都比较好的隔离开,环境是不能共用,因为会互相产生一些干扰,但是要为每一个用户准备一套环境,那么成本就非常高,有N多套开发软件,有很多套配置。 日后我们会往PVM做迁移,第二是我们内部GFS,它的好处是降低系统的复杂性和所有数据,即便被公共访问的数据只能存一份,降低在不同用户,不同环境下 拷贝的时间,充分利用磁盘资源,我们用的是非常大的规模,大概能够在PB的量级上,GFS已经在商用领域非常大的应用了。MooseFS现在应用也非常 广,存储环境在用每天觉得不够用了,插了一个20G磁盘,性能也都不错。

  最后一个很重要就是Hadoo,因为是一个非常开元的实现,包括雅虎和亚马逊,甚至微软自己内部都在用这个平台,根据不同的环境,不同的应用, 解决了节点的热规模,我看了Hadoop官方支持的页面,也是一种不小的规模。所以这三个领域是对云输入法的实现起了非常核心的帮助。

  我就说这些,谢谢!

  主持人:谢谢杨洪涛给大家分享搜狗输入法的实践,休息十分钟,再请王总和杨总,方总跟大家一些分享一下云计算问题的探讨。

  (茶歇)

  池建强:现在开始论坛环节,首先有请四位嘉宾上台。非常有幸能够主持这样一个嘉宾论坛,这个活我也是第一次干,我说不干你们不同意,也非常有幸 结交互联网的精英,尤其是近距离接触了志东同志,他是中国互联网传奇人物。我是池建强来自瑞友集团,目前是在瑞友应用研究院的工作,这个活动主要是分两部 分,一部分是刚才接触的演讲,另外一个是这个论坛,论坛也分两块,本身基于计算这个主题,我们提供了一些提问,和CTO俱乐部做一些探讨。一方面是做探 讨,一方面俱乐部成员随时根据探讨的方面做交流,当然CSDN还准备了一些杂志,如果有交流的话赠送一本杂志。

  刚才志东老师说了云计算是一个筐,解说了他对云计算的认识。之后杨洪涛从搜狗输入法云计算的应用实例上阐述了搜狐在云计算方面的实施。从我个人 的感觉来看,因为没有做过输入法的人,对杨总讲的输入法的分词,包括任何去做输入法,可能不太知道。实际上支撑它是云计算的技术,包括虚拟化,包括分布式 的存储,体现了云计算的价值。

  今天我们准备了一些话题,因为刚才志东老师和杨总做了接受,有请其他的两位嘉宾做自我介绍,首先请吕宗智,他是就职于文思创新,是TIBCO的 一个技术主管,欢迎他做一个自我介绍。

  吕宗智:对于云计算,这是一个老话题,也是一个新话题,为什么说它是老话题?因为很早以前在做网格计算已经开始了。之所以是新话题,是因为这两 年Google和IBM的挑动,这个话题出来了,在我们TIBCO研究中心正好是在做云计算PASS的平台工作,我有幸也参与了一部分。另外我个人对云计 算非常有兴趣,也在Google边境上有一套类似于电子商务(电商频道)网店,能够让用户能够很方便把一个(TP)文件直接传到Google云计算中心,然后可以上 去,然后可以开始电子商务网店的运用,云计算给我们带来了革命性的变化。

  池建强:有请方总,他是宇思信德的创始人。

  方浩:感谢CTO俱乐部给我这样一个机会参加讨论,我是文思创新创始人之一,我是做云计算技术和社区软件在企业应用的技术为主的公司,我们参加 这个活动也是我们对云计算这些年比较流行的社区软件技术,我们一直非常有兴趣,我们在国外也做得比较多,我们在国外看到很多的趋势,我们可以看到在国内不 比国外差,有一些可能有一些不同,所以今天很高兴有这个机会跟大家分享一下我们的一些体会。谢谢!

  池建强:云计算实际上从我第一次接触这个名词,应该是从08年开始,这个词确实是一个新名词,大家如果从Google的趋势搜索上搜索,发现这 个词是在07年的时候开始被大量的搜索。然后可以看一下到百科查一下云计算,或者(英语)中英文的词有比较明确的解释,这个概念志东老师也提到了,也就是 Google在大量的应用了云计算能力之后,他觉得应该提出这样的概念。但是07年10月份就伙同IBM,IBM也喜欢造概念的公司,他先做一个概念,这 个概念其实没有做出来,告诉他我们要一起做一个概念,做着做着成为了IBM的概念,或者IBM基于这个概念做了一个成功的产品。互联网这么两个巨头提出了 这样的一个概念,这个概念提出来之后,大家发现我们正在做的技术和应用和这个概念非常契合,包括微软和IBM,包括亚马逊,包括中国的阿里巴巴,还有其他 的一些公司等有自己的平台,都开始提这样的一个概念,所以这种顶级的公司对云计算的认同,就保证了云计算有一个很好的方向和趋势。

  从实际概念来说,首先大家提出的是云计算,肯定是用于计算,之后提出来云的平,这些平台包括了计算和存储,大家觉得云应该以服务的能力展现出 来,包括云病毒,云查杀,云安全,先请四位嘉宾谈一下对云的整体认识,今天我们先请方总,最后请志东老师做一个总结性的发言。

  方浩:我本身也不是云计算技术的专家,我可能对应用层的概念和一些趋势,尤其在国外有可能了解得多一些,刚才听到了王总和杨总的介绍,我非常认 同我们的观点,我们的观点我们觉得首先云计算,或者把云计算分成三个层次,一个是AVVS,PvvS,或者SvvS,这种分层从了角度来看AVVS现在感 觉比较长成熟的,PVVS几个大的厂商,比如包括Google的,微软的,所以几大阵营也逐渐的成型。但是从我们的角度来看,实际上我们认为云计算才刚刚 开始,还有大量的工作实际上没有真正进入到三国演义的时候,我们认为最重要是应用,市场的应用到底是什么,到底对哪些应用最有机会能够引领未来的趋势?哪 些企业有机会能够在这个过程里面树立自己的品牌,我们会有机会会成为下一个微软或者IBM,我觉得首先是一个非常大的战场,再就是还远远没有开始,可能刚 刚开始,远远没有结束。

  我们另外一个观点,有什么样的一些趋势或者技术,或者是方法,我可能分享一下我们在做的事情,我们在的一些事情目前我们在和一些行业里面资深的 公司来做一些应用,这些应用我们是以SAAS的方式去部署,然后我们会把这些应用放在微软的(H)平台上,目前来看微软在企业应用里面,微软的平台是相对 成熟的。接下来我们可能会做更多的应用,未来我们是不是依附于微软的平台,我们认为不是,未来我们有很多的平台,包括提供接口和各种各样的服务,未来我们 会做更多的云的应用,未来会做更多不同云平台的应用,这是我们的一个方法。

  还有一个我们的看法,大家可以回顾一下过去十年,这十年我们看实际上绝大多数IT行业,绝大多数的主角都是大众科技市场公司,比如说 Google和苹果,全世界没有特别成功的公司,他们在十年前已经蛮成功的,我们觉得一个很重要的原因,就是因为这个企业应用市场老大们,他们其实比较舒 服,别人很难进去。大家不知道有多少人做企业应用市场,凡是做企业应用市场都会有一个感觉,我们去谈一个客户非常不容易,但是做大众科技市场公司一旦达到 这个点,你会扩张得非常快。当达到一个点能够非常快的扩张,但是做企业,我们的起步是很低的,所以老牌的企业他们会相对容易坚守在阵地,因为银行和电信也 好,不会轻易把大的订单给一个新的企业,我们认为云计算这个平台会给后来企业应用公司也好,甚至个人也好,会提供一个很大的机会。因为云计算的平台,尤其 是PVVS这个平台,他们在(Andorid案桌)上做,会有很多国家会找他,有了这样的一个平台之后,我们做企业应用的厂商进入到主流的企业应用市场里 面,这个平台很大程度降低了。

  池建强:方总谈了互联网企业级的现象,他提到了大众科技市场,这个公司在中国来说是业绩不算大的软件公司,比如说阿里巴巴是2003年成立的, 那个时候还没有阿里巴巴,还有像腾讯,像百度市值得都是在1千亿,但是用友是在几百亿的公司,就是互联网产生以小博大的效果。

  下面听一下杨总的看法。

  杨洪涛:我是一个完全不同的领域,跟最终用户结合得更加紧密一点,我们在圆桌上也聊过,关于公共和私有的问题,行业应用也好,或者叫公共服务也 好,一个中小企业也好,个人购买服务,然后在上面搭建自己的东西。我们在日常接触比较多的是自己的私有应用,或者叫私有云。虚拟化也好,存储也好,或者并 行计算,给互联网带来实质的用户体验的提升,品质的提升,回到主持人问到的问题,更概括说对云的理解,PPT画了一个云的图片我觉得特别小,就是很多小的 粒子组成,每个粒子成本比较低,相对不是那么重要的,多一点少一点也是可以的,然后对于提供服务的企业来说是比较低,对于购买这个服务的企业来讲成本也降 下去了,我们一个很高的成本就是运维成本,你用的亚马逊可能没有问题,所以成本是云计算里面最关键的,无论是企业应用还是面向公共的互联网的应用,帮他发 展是一个很重要的因素。

  池建强:下面请吕总在TIBCO方面的认识。

  吕宗智:杨总介绍的把云中能力开放给个人,但是整个体系架构资源没有充分利用,怎么才能更充分,更有效利用云呢,国外忽悠我们大企业他们走得比 较靠前,比如像Google和亚马逊,他们已经提供了成熟的平台。对我们意味着什么?意味着你可以用非常廉价的付出来得到很大的回报,比如说我现在需要在 国内的万网上要花2000千去租一个虚拟主机,然后空间和数据库都有限制,当我这个访问量达到一定量的时候,一台还承受不了,还得多台来给我提供服务,然 后多台的集成问题还得我自己用软件想办法解决。但是同样的问题摆在云计算,很多资源基本上是廉价的资源,比如我们做了一个电子商务网的应用,开发好了之 后,做了一个打包的文件直接传上去,提供虚拟主机的能力,在上面可以访问了,每个月500万的访问量是免费的,你基本上是零成本维护你的网件系统。

  在公共云上还能做什么事,大家在一个公共平台上,最典型就是苹果的ABBM,他们把应用发布在他上面之后,别人可以下载,然后就付钱。我们觉得 ABBM比较好玩,放上去之后没有多久,结果澳大利亚、俄罗斯、新西兰的客户都来找我们,我们提供各种各样的服务,我觉得对于中国的中小企业来说,真的是 一次机会。就是你能够把你的应用放到一个公共的平台上,让所有的客户选择,这就是云所带来的威力。

  池建强:其实杨总讲的搜狐云端的输入法,实际上利用了云一部分的能力,很多开发人员对云的认识,你既要有后台的管理,你要有虚拟化,你要有动态 分布,你要自己计算的能力,你要能分布存储,我要在你部署东西,你不给我用,我觉得你不是公共的云,你是私有的云,这个话题可以稍候让几位嘉宾来探讨一 下。

  志东老师在PPT给我们讲到云的认识,然后基于云之后还讲了空气计算的概念,而且空气计算的概念涵盖了当下互联网的概念,下面请志东老师做总结 性的发言。

  王志东:很难总结了,关于云计算刚才PPT里面我一直都在说云计算的概念,第一个云计算本来是一个筐,什么东西都可以往里面装。第二个云到底是 真是假,并不重要,我倒可以总结一下,我在国内听说过所有跟云相关的,我们可以做几个分类。第一个分类很多人可以把各种并行计算,分布计算,和虚拟化技术 这一块合起来,比如像搜狗系统后台的那一部分,我建立私有云,因为是用到了虚拟化,并行存储,在这个范围之内还去定义云,国内很多说到云更多强调这点。

  第二个国内谈得比较多的,是属于像SAAS,甚至包括一些公共服务平台,比如像APP(案桌),把云变成一种公共服务,网络化的服务,都会往云 上面技术比较。

  第三类也是在国内蛮有特点的,包括搜狗拼音的前端,包括瑞星云安全,其实这里面的一个概念是利用互联网大量搜集在互联网末端的一些信息,由他们 来直接参与到整个系统的建立,比如说在搜狗拼音会把整个用户数量流程,包括他们自己选的词,这些都囊括了,海量的数据通过在后台的分析,就能对词库有很好 的优化作用。同样像瑞星,通过每个用户来主动提供一些扫描到的一些怀疑操作方式的样本。可以延伸到互联网的网检,包括搜索也是提供海量的资源,这个在 IBM和Google也好,他们未必有明确的定义,在国内的确很多厂家在说,这个模式不管是真云还是假云,我觉得这个是有了互联网之后,的确会带来很好的 效果,这个效果叫云也无妨。

  其实云计算还是瞎子摸象,你摸出什么是什么,我觉得不重要,更重要我们希望从用户也好,或者从厂家也好,你要想进入云,你看用云不用云到底有什 么好处,有好处我们做,没有好处就可以继续观望,大家不会轻易被厂家牵着鼻子走。

  最后我说一下IBM的云计算,尤其是只要能够弱化客户端的技术,他们都在做,只要到了服务器端,就是他们的天下,只要是到了客户端就是微软的。 AC出来这个概念也一直在推,在推云计算之前,IBM还推出过很多,类似于网格都是IBM在大力的提供,最近在IBM主力推的就是物联网,就是智慧地球。 每个椅子和每个萝卜都带着计算,后台服务器要很多,这样要买更多的服务器。IBM是有这种想法的,有这种概念,这个概念的确让我们看到了很多前瞻的想象, 但是IBM并不是推所有的东西都是成功的,有点像股评人一样,大家都信肯定能涨,如果有别的原因不一定能涨。我觉得大家对云计算,我希望大家有一个比较现 实的态度,大家都要多了解,但是到底是真是假,或者还是该云还是不云,我觉得大家要打好自己的算盘。最好所有的企业觉得自己的IT系统都过时了,都要转向 云,对于我们来说,我们希望大家有一个比较客观的去看云。谢谢!

  池建强:刚才志东老师也讲,IBM喜欢提概念,我感觉IBM提的概念好象比微软的概念成功率要高一点,微软04年李开复曾经为微软无缝计算做过 多次的演讲,这个无缝计算的概念没有起来,最后还是IBM的物联网。包括微软提出的电子商务(电商频道),然后到云计算,再到物联网,感觉IBM还是挺能忽悠人的。

  刚才谈到公有云和私有云,还是真云还是假云,有人说Google的搜索开放了,大家用的是网页上的搜索,数据没有在本地,所有的搜索能力都在 Google的后台,如果是Google的案桌平台,我可以把数据部署到APP Engine案桌的平台上,大家基于自己的需求,而不是说考虑这样的概念,这个东西其实并不重要。

  昨天年会告诉我有这样的主题,我把这个主题发到微博上面,征求了大家的意见,他们也有一些问题,可能技术性会强一点,大家都在谈Google共 享的开元,离了这个东西我们对后台分布式的计算,这种分布式资源的分配,包括如何按需给客户提供资源,中国公司很多在做,我也知道很多公司是基于 HODP,有的公司在做自己计算的平台,那么在这个方面云计算有哪些瓶颈,我们有哪些技术难题,然后去解决这样的技术难题,这个是推友上提出的问题,可能 技术性更强一点。

  方浩:这个问题对我个人有点难,从我们经历的事情来分析一下,我们公司在微软上做过一些,实际上可以看到Google很多云计算,就是所谓开放 他的服务,目前为止还不是特别成熟。微软我们稍微了解一些,从微软目前已经开放云计算的服务,本来(英语)是今年9、10月份,会把它几个平台全都会商 用,最近听到的消息只会有两个服务开放。从这个角度来看,我们可以看到像微软内部有三四千人在做这个事情,大家也知道他们的投入非常大,可以看出来他们已 经成熟的是他们已经有的Windows的基础服务,数据库是一部分,其他更多是API的,包括商用系统,这一块不是很成熟。据我听他们内部一些讨论来说, 还有很多的问题,整个API的开放,整个各方面的资源很多问题,据说到2012年会非常成熟,现在有大量的人在做,如果幸运的话明年ERP都会有商用版。

  其他据我们来看还有很多的问题,离真正的商用化,如果计费用户要查,就像电话单一样,要查每天电话用了多少分钟,这个还有一段时间。还有安全 性,绝大多数通过银行,跟任何企业,如果把系统放在外面,对IT是一个巨大的挑战,可能这些问题实际上各个企业有一些方法,微软推出了(英语),像 EC2,像Google还没有推出相应的,因为他们本身是企业的方案,像思科也没有特别成熟的东西,我觉得这一块实际也是未来的一个东西,就是怎么样让企 业逐步从企业内部过渡到外部,哪怕是私有云,怎么让它能够放心的过渡,这也是一个问题。

  另外在国内还有一个比较大的问题,我们避免不谈政治问题,在国内实际有诚信问题,我们对应做的一个应用,我们跟客户和合作伙伴去谈的时候,我们 说是云计算部署到自己的机房里面,他显然觉得这个不够安全,我说我们部署到电信的机房,还是觉得不够安全,觉得员工会偷我们的熟悉,把关键数据放在里面也 会偷,他们觉得不会安全。什么安全呢?如果这个东西放在IBM,让他们来监管,他说这个可以。从国内用户对谁来偷管,谁来管理,吃的问题谁负责,这个在国 内来看还是有很大的问题,这是我们一个实际的看法和实际经验的总结。

  池建强:现在各大厂商都提出了云的概念,现在很多成员中国业界能不能有这样一套云的平台出来,现在搜狐主要用的还是开元的东西,标准和名单并不 是我们提供的,搜狐有非常成功的经验,国内对搜狐规模这么大其实还不是特别多,听一下搜狐杨总这边的经验。

  杨洪涛:确实把应用做到开元社区的产品之上,要花很多国外的经验去解决问题,如果没有很强大的后盾,决定未来技术走向,跟微软和IBM有强大的 后盾。在看页面的时候,看到各种各样的厂商,有几十个节点,包括雅虎、亚马逊都是在一起核心贡献力量,如果说到国内,一方面我们自己也在做这种尝试,另一 方面对工具和平台在技术上的发展能产生自己的贡献,我们曾经想做自己的工作室,我们满足无论是搜索,包括像输入法应用的需求,后来觉得首先要选一个知识比 较好的,再就是能不能够把我们的成果拿出来。

  另外一方面很关键国内的企业创新很重要,概念就是这个概念,但是能做什么样的应用,无论是企业级还是搜狐内部私有的,叫做真云也好,假云也好, 我觉得建构什么样的应用,给客户提供很低云端的起飞和提升,这是一个很重要的问题。

  池建强:下面请吕总,你们有没有听过TIBCO有一款自主研发的Active Matrix的一套应用,这一方面吕总会给我们很好的心得。

  吕宗智:往SAAS这个方向走,07年当云计算这个概念起来之后,也不是见风使舵。但是TIBCO有一些特殊技,策划都是五百强的企业,规模很 大,应用很多,要求你的系统非常稳定,TIBCO在这方面花了很多的精力在做这个东西,基本上小有所成,但是价格很贵。文思是做外包的,又凑巧有微软部 门,IBM部门身上都跟云计算都沾上了一点边,国内的企业来找文思创新,我们现在也是在跟国内一家企业在做。

  接到这个话题的时候,这个话题到底有什么样的技术问题,不做不知道,一做吓一跳,真的很多。从杨总说的,他们只是用到云计算存储的东西,这个肯 定能满足要求,因为开元的东西没有保障,你需要自己深入去研究。如果作为一个完整PIIS平台,除了存储你需要对各个节点进行虚拟化的管理,杨总直接用 SN,有的客户不想这样弄,他希望用别的解决方案,在这上面提供的是应用服务,或者每一节点上要布置一个应用服务器,每一节点应用服务器布置之间相互能够 自动伸缩和扩展。当终端用户进来的时候,他希望这里面的(英语)太多了,但是我进来之后,对我的应用来说,可能还没有达到那样的规模,这里面要有一个分配 策略,锁定之后终端用户进来的时候就可以做一个智能路由,当这个量大起来了之后,又能够自动扩展,这里面有很多很多的问题。

  还有就是安全问题的,比如说像Google面临的一个问题,我提供这个云平台的环境,你可以部署应用,但是有人偏偏不按规则显示,我放一个应用 专门供给Google的,A服务器向B服务器发请求,天天发,这里面要存在资源的使用,比如说你的访问需要有一个授权,能够确定你的目标。另外多线程能够 到什么样的级别,还有就是文件系统开放到什么程度,这些都是问题。另外你真正运行一个云计算平台,还面临着怎么跟用户收费,你要计费,因为每一个占用了 CPU,占用了多少内存,这个都是最后计费的依据,你要实时的监测。你的应用处于什么样的状态,你路由如果做得不好,有的机器饿死了,有的吃饱了,你要有 相应的一些策略,这些东西说起来很难,做起来确实很麻烦。

  池建强:可以看出一个是属于互联网公司,一个是属于企业用户,互联网公司像搜狐和阿里巴巴,后端运行一个什么东西是在逐步的升级,当用户量大了 以后PAD搞不定,用一些更新的,或者数据库开始扩容,杨总这边也是,我可以用开元,因为服务器是可以控制的,如果有问题我随时可以解决问题,我可以研究 开元。但是像李总这边,首先我做一个平台,实际上卖客户,客户就不想用,他们技术上的选择实际上跟面向企业用户的体验,这种软件开发厂商或者互联网的厂商 还是有很大的区别。

  刚才三位嘉宾谈到了技术上的一些问题,包括一些技术的创新,技术的应用上的一些问题,这块我不知道大家刚才听志东老师演讲的时候,也没有注意到 一个细节,就是说志东老师最喜欢的公司是Google,现在变成了苹果,Google真是一个很具有创新精神的公司,现在我们觉得苹果创新公司要比 Google更强。志东老师谈一下感想?

  王志东:实际我最早喜欢是微软,到今天微软和Google,还有苹果,他们的产品我都离不开的。从现在来说最具创新力的,我可能比较势利,正好 苹果市值都超过了,我喜欢个人排第一的。我不是这个云计算方面的技术专家,具体的技术方案我听不出来。我谈几个,第一个我们做企业或者做产品的时候,到底 是要知难而上,还是知难我们就撤,或者我们要换?因为做一个技术很好,当我一用用户不买账,然后问题一大堆,那么何苦呢,我觉得有些公司难度太高的话,没 有必要跟这个市场,跟用户较劲,不行就换一个方法。就跟刚才所说的电子商务,电子商务几年在中国很难维持的,不管是真是假,找一个能做的方式做起来。

  如果对云计算有兴趣的话,不管是真还是假,我觉得能把这个概念用起来,把它的学会,能够节省你的开发成本,能够更好去为你的客户销售,这个方案 就是好方案。刚才说了用户又担心这个,又担心这个,又缺这个,又缺那个,这个不成熟,不要去较劲。第二,在美国云服务提供最好一个是Google,一个是 亚马逊,这两个公司都有一个特点,他们一开始都是因为自己业务的需求,弄了一整套IT系统。后来像Google一开始提供搜索,提供邮件,再提供文档,他 多提供了一套服务,他是顺着这条思路下了,不是为了云计算而计算,所以哪个服务要调好了,能提供了我往外开放,提供开放的平台,所以他们是在自己大平台, 这个平台不管提不提供服务,都要做,然后做一个成功的东西往外放,也没有什么大碍,反正是要做的。亚马逊是在西雅图,是微软计划基本失败之后,一大批的工 程师从IBM跳槽到亚马逊,忽悠亚马逊的老板,你现在为了做电子商务有那么多的服务器,我有这个方案,这个方案可以增加收入,可以为企业提供这个方案。后 来亚马逊把人才都吸引过来,然后就做了一套,那一套也不错,它是挣钱了。他现有的服务器群基础设施之上,而且还是一点点在做,所以我觉得自己先要做云服 务,你要是凭空来做的,我觉得这个风险是比较大。反过来说阿里巴巴,包括像腾讯自己有几万台服务器在网上,本身主页都挺好,如果大家有兴趣,他开放一个, 能做点这个也有可能。但是这些公司也有另外一个风险,就是这个主页太强硬,副业一做起来对公司的分配也会有问题,包括像几大门户公司做的一些企业服务,基 本全部都关闭了,跟这个也有直接的关系。

  所以我觉得云计算是好,同时也给大家泼冷水。

  方浩:下面选择推友或者微博上的一些问题。有问题是问王志东老师,我们选择性让嘉宾做回答,王志东老师在新浪,有一个微博很热,如何在使用 iPhone手机3G,不能用全球通号上3G的号,这是一个很通用的问题,怎么去解决这个问题?看来王志东老师对苹果的产品是情有独钟,基于今天这个主 题,就是云计算和移动互联这一块,包括Google的案桌,苹果的iPhone有什么样的契合点?

  王志东:移动应用几个特点,第一个客户端基本偏瘦,第二是随身带,使用几率更高,第三个大部分移动设备现在都可以联网,所以具备这三个特点,很 自然就有一个水到渠成的解决方式,就是前端和后端的配合,这个手机的应用需要怎么计算,可以采取一种在客户端和服务器之间的分配,我这边强一点,那么在客 户端分配的资源就多一些,然后后台少一些,如果这边弱可能是这边少一些,后台多一些。不管怎么样,移动应用肯定最终会促成对后台计算不利需求的增加,而且 这个增加是爆发性的增加。云计算是构建高性能计算系统的一种模式,目前来看是一种非常有效的模式。

  基于这一点,因为有了移动,所以对于云计算应该是一个很好的促进,由云计算能提供大量的后台计算能力之后,对移动也会是有一个促进。但是是不是 所有的移动用户都会是云计算,这个就未必了,比如说像苹果的(英语)的确提供了一个平台,开发者可以利用开发放在上面,可以赚钱,它是一个平台,但是是不 是云,我不知道,可以是云,也可以不是云,如果赚钱不用云的方式来做后台提供,也没有问题。所以我是觉得云计算这种应用其实没有一个必然的联系,至于刚才 说的苹果在后台应用里面到底用不用云计算,也会从经济上,技术成熟度和实际的需求等几点来考虑后台要不要用到云计算。

  池建强:如果这边有移动厂商的CPU,可以参考王志东老师的意见。还有一个比较好玩的问题,是问杨总,现在苹果上半年市值超过了微软以后,因为 我也是一个苹果的用户,我感觉从08、09年开始,苹果的手机用户,包括笔记本的用户越来越多,但是苹果并没有一款好用的输入法,搜狗有没有考虑给苹果提 供一款好的输入法?

  杨洪涛:这确实是一个问题,我们也考虑这个问题,PC的用户占大多数,我集中精力做最大一块用户的体验。也是因为这里面想做的事情实在太多了, 包括政府和企业的部门也很多,我们也都会有所考虑,到适当的时机都会去做。

  跟云计算搭边,你不装任何的东西,你装了我们的PC输入法,不光是网页版,我们提供了浏览器的插件版本,因为我们在输入的时候大多数时间是在网 络上输入,所以和性能绑在一起,能不能解决是60%的输入需求。

  池建强:感谢杨总。今天问题就告一段落,还有几分钟的时间,看大家有什么样的问题。

  提问:现在企业级用户应用服务器可以进行水平扩展,我们基于云计算的框架,是不是这个东西可以在开发的时候或者设计的时候不用考虑,直接按照云 计算的变通方向,直接做完之后可以放在上面,就达到复杂的请求。

  吕宗智:如果你用Google,这些问题都不用考虑了,如果你用EC2,你可以用(英语),以后可以做横向扩展。如果你要自己做,那么就从(英 语)开始。

  池建强:今天的论坛环节就到这里。

  主持人:谢谢建强和四位嘉宾,今天交流给大家准备了自助餐,希望给大家自由交流的时间更充分。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章