中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革

5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,国家自然基金委副主任、中国工程院院士、中国大数据专家委员会副主任委员高文在全体大会上带来了“大数据分析与智慧城市建设”的主题分享。

ZD至顶网CIO与应用频道 05月19日 北京消息(文/齐丰润): 5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,国家自然基金委副主任、中国工程院院士、中国大数据专家委员会副主任委员高文在全体大会上带来了“大数据分析与智慧城市建设”的主题分享。

中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革

高文表示,“现在云计算、大数据也好,把数据挖掘出来,实际上会对我们整个的社会也好、城市也好带来很多好处。所以把大数据用好了,实际上对整个城市的生活,会带来很多变化。”

中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革

以下是高文演讲实录:(以下内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载。)

谢谢林秘书长的介绍,今天我给大家分享的内容是关于多媒体大数据分析与智慧城市建设这样一个主题。为了不耽误后面的演讲者的时间,我设定一个提示。

这个就是今天上午我希望和大家分享的内容。主要是关于智慧城市建设大概有什么样的一个背景或者场景,或者什么样的需求。在智慧城市建设里面关于多媒体的大数据,实际上比较挑战,有很多问题,在这里我把其中的三个问题列出来,希望给出一些答案,这答案也许会对大家有一些帮助,最后是一个总结。

智慧城市这题目实际上并不是一个新的题目,我们知道现在在智慧城市里面或者在我们社会里面,涉及到方方面面的领域都有非常多的数据放在他里。以前这数据就是在睡大觉,我们知道现在云计算、大数据也好,我们把数据挖掘出来,实际上会对我们整个的社会也好、城市也好带来很多好处。所以把大数据用好了,实际上对整个城市的生活,会带来很多变化。比如说我们现在交通是很热的话题,可以用通过视频监控、通过GPS数据,使得交通管理,不管是城市部门对道路的管理,还有我们自己行车找一个最优的路线都有帮助的。医疗卫生,以前我们知道看病主要靠医生根据他对你的诊疗,就是问诊的数据和你化验的结果有针对性的治疗。我们知道最近的精准医疗,基因测序找到你的基因发生变化的地方。对于发现的问题地方,对于靶点实时治疗,使得治疗效果最好,伤害最小,现在最新的治疗方法等等。当然这靶点怎么治疗、怎么用药,实际上靠前期很多大量的数据分析,特别是治疗的前期数据的分析整理。最后得到这样一些结果。教育也是一样,以前的教育我们知道都是照本宣科多少年的教材一直这样下来。学生不管是什么样的学生都是按照一层不变的方式在灌输,实际上现在利用大数据的做法,是针对不同人,它的进度可以不一样,内容的跳跃也可以不一样这完全基于大数据,授奖者反应,对于理解和掌握的程度,来进行动态的调整。我们知道现在安全,城市的安全,比如现在有很多爆恐的等等,更需要基于大数据和监控数据的来对应。

对个人来讲很快就要开始的,刚才说的医疗、保健这些,针对每一个个人数据,其实我们都可以去改变生活的一些东西,教育也是一样的。关于多媒体数据,我们知道现在为了城市的安全和城市的交通管理,监控视频实际上已经被大量的考虑,现在我们国内很多城市可能都有的安装几万个摄像头,大一点的城市像北上广这种城市,现在摄像头的数量大概都是在四十万到五十万这样的规模,随着时间的推移,可能还会增加,因为已经有这样的一些说法,就是说一个智慧城市,它里面安装摄像头的人数,应该是人口的大概二十分之一到五分之一,那你就可以想象,一千万人口的城市,二十分之一,就应该是五十万摄像头,如果是五分之一就是两百万个摄像头。北京的两千万整个的摄像头安装是非常之多,这里多了以后就产生了大量的数据,目前的数据绝大部分是在睡大觉,大概是一两个星期,最多一两个月数据就被扔掉了,因为实在是太多,只能通过往返覆盖的方式给它覆盖掉,这实际上是一个很大的浪费。数据怎么样能够把有用的抓出来,没有用的扔掉,这实际上是一个很大的难题,我们现在说大数据里面,大概有一半甚至一大半呢,其实都是这种音频的数据,所以这些数据,要想把它用好,实际上有三个比较大的挑战,通俗地说就是三个存不下、看不清找不到这样三个挑战。具体对应的技术就是说,存不下这问题主要是到现在为止,我们压缩算法,或者叫编码算法还没有那么强,还是有很多提升的余地,所以不能有效的压缩它就太大,太大存不下过一段时间只能覆盖掉。看不清就是因为我们现在人看一幅照片或者一幅什么。

就是我们人眼看一个东西就是车牌号一二三四五六,计算机最后看到什么是识别出来,但是模式识别算法怎么样做的比较好?清晰度要高。但是我们现在的摄像头,都是五米、十米,一个人脸、一个汽车牌照也好,汽车牌照问题没有那么大,特别是人脸,可能变成一个人脸只能很少的像素,大概10×10、20×20。现在希望不要太小,至少人脸里面的像素应该保证在48×48或者64×64或者以上这可以识别,但是现在我们脸上面的像素比较小,还有就是找不到,因为几十万个摄像头,每一个摄像头物理参数都不一样的。A摄像头拍的东西和B摄像头,最后就跟我们眼睛看差不多,但是用计算机看不一样。这时候明明同一个人在A被拍到跑到B已经找不到它。这里面就是跨摄像头搜索的问题。

这就是目前为止技术像第一个存不下的问题,我们是希望找到更好的压缩算法使得能够有效的把数据给压缩了,以后尽量的保存下来。因为现在你这数据的增长,大家可以看到这曲线,数据增长的速度实在太快,摄像头忽忽往上,但是我们技术的增长就是下面这一条绿色的线,技术增长实际上一个缓慢提升的水平。或者说十年才能翻一倍,但是我们看整个数据量的增长,实际上它是一个指数性爆发增长的趋势。所以你纯粹靠技术这是很难很难满足这需求,当然我们有更多的办法,多投钱去扩带宽,或者多投钱做海量的储存器把它存起来这也是可以的。但是毕竟你靠成本去满足线性增长还是有问题,所以我们也希望这一条绿线也能够尽可能的吻合它,这就是从技术上,因为花钱办的事不是我们搞技术能考虑的。我们需要考虑的就是说怎么样提供一个方案,在技术上也能减小这种花钱的压力,这是第一个问题。

第二个问题就是看不清有很多,刚才也说到,这么多摄像头,很多东西由于分辨率不够,所以看起来还是比较困难,找不到是摄像头这样的问题是找不到,针对这三个,实际上我们有三种不同的技术来对应它,第一种技术比如说针对存不下这问题,我们技术上要从提高压缩能力,提高新的编码技术,就是更新新的编码技术这样一个思路去解决它。所以高效视频编码就是解决存不问题的直接技术手段。为什么视频是可以压缩的?我想我们在座的人都是学理工都是学技术,如果大家学过信号处理就知道。实际上我们的数字视频实际上它是一个数字图像序列。数字图象实际上它是表现的数字信号,数字信号本身我们是可以对它进行处理。我们经过分析发现,在现在的数字图象序列里面,有三类信息冗余,第一类我们时间冗余,第二类我们叫空间冗余,第三类比较大的冗余,我们叫感知冗余和编码冗余,实际上还有很多的冗余,知识冗余、编码冗余等等。我们有办法把这些冗余挤掉,就能有效的压缩这些视频。

具体怎么来压缩,那肯定对不同的冗余我们可以采用不同的方法。理论上这视频编码,我们可以找出它编码的上界就是最大压缩到什么程度,这通过矩阵运算或者说通过矩阵分析很容易我们就可以做到一些分析。这条红线就是我们分析的结果,就是说对于一个2000×2000这样尺寸的图像,我们可以做到的理论上限,能压缩多少倍呢?能压缩2000倍,也就是能压缩大2千分之一。这可以很大很大压缩能力的。但实际上我们技术能做到下面这几条线,技术上我们最好能做到多少呢?对于2000×2000的图像,我们现在能做到600:1,600到2000还有一个1400,简单来说就是这样一个空间。这实际上技术可以不停地做它,当然怎么能够做到这一个?就是采取各种不同的技术。

从1993年有第一代的编码技术,它大概能把高清视频大概可以压到75分之一,当时没有那么高,随着时间的推移,那个编码通过优化以后可以做到75分之一。也就是说对于高清频道,现在卫星上传输信号的话,大概需要20兆。到了2003第二代编码出来,差不多十年以后,它的编码性能比第一代正好提高了一倍,提高一倍以后,对于高清视频大概可以压到10兆。2013年就是3年前出了第三代编码技术,第三代编码技术其实又比第二代提升了一倍,可以把高清视频,压到每秒5兆BT,按照这样的预测到2023应该有第四代编码,它的能力是六百分之一。所以这是技术上的走向。我们可以把这样的规律,叫做编码领域的摩尔定律十年性能翻一番的定律。

对于这定律怎么做到的呢?这是一个到现在为止从第一代、第二代、第三代,一直在使用的编码的框架结构,就这里面实际上从左上一个视频信号进来,切成块变换处理,进行滤波运能估计,这是它最基本的架构,但是为什么就这样一个架构,我们十年翻一番。这里面最主要是采用几种数学工具或者叫算法,我们习惯叫工具,最上面是基于变换,或者基于正向变换。我们现在的编码里面用的DNCT,也有人去推荐用小波或者是DNCT变换,也有用离散等等,也有人更早的时候在用(英文)变换,总是在用一种正向变换。

另外一个工具叫做预测,大家学工的都应该学过滤波器设计理论,滤波器最主要的理论就是预测来编码。另外一个技术就是用商编码这是最典型的,比如说算术编码等等各种各样都可以使用,这三种工具混合在一起就使得编码效率不停地提高,但是这三种谁贡献大一点,谁贡献基本上不变呢?这是一个到现在为止三代编码技术,谁做了多大贡献粗略的统计。左边这两个颜色空间变换,和整个的变换这两个大概贡献了6倍。然后第三个从左往右数,第三个说的是预测与运动估计,这一块每一代都是变化,第一代因子3、第二个因子6,最右边的商编码大概贡献了因子3,所以你就会发现第一代75倍是这样得到的,第二代150倍是那样得到的,第三代的300倍是这样得到,所以真正大的变化在哪里?就是在预测与运动估计这一列上,每一代它是不一样的,这其实就给我启发,就是为了寻找更高的编码效率,你应该把你的重点,主要关注什么东西。当然为什么预测可以得到更高的编码效率呢,因为预测主要解决的我们叫做是空域的冗余,也就是说随着时间的推移,它一针一针往前处理,这时候我们知道图像出率里面很多东西部变化,这些不变化能够有效的利用起来,你就可以得到比较高的编码效率。

最简单的来说我们对于监控视频来讲,这个讲话是不动,只有前面这个在动身体偶尔动一动,上面的情况更有普遍性,就是如果你看的树林,你一年四季除了在每天的光照变化,一年四季的叶子长出来以外,其他都是不动,所以如果你有办法,把这模型建起来,可想而知你可以得到很高的编码,这实际上是我们做的一个比较大的贡献。到现在为止全世界做编码大部分都是看着广电怎么用、电影怎么用。中国的团队其实我们就是说针对不同应用,我们在考虑不同的技术来做。

比如说最右边的那个方格,实际上是我们用的面向视频监控的,所以我们后来提出了一个背景建模技术。就是一个背景建波来帮助你把背景的模型给算出来,你以后在后面做预测的时候,用这模型去做计算你的效率就会非常高。这是因为国际上做编码大概有三个技术团体,中国是其中一个。另外一个是由国际标准化组织,就是IOS和RTO,H42.5这是一个团体。第三个团体主要是公司,比如早期微软曾经是一个非常主要的在第二代的时候。到第三代的时候微软基本上就停止做这一件事,谷歌站出来。所以第三代谷歌是很关键,当然除了谷歌和微软以外还有其他的企业只是规模没那么大。在第三代我们中国的团队,其实说中国团队有点,其实刚才说这三个群体之间都是互相交叉,并不是我做IOS就不做(MP6级),所以这实际上大家都是互相交错,中国为什么做IOS,做机顶盒的比较多,因为他们没有技术就比较被动,而且中国市场比较大,所以我们当时就做了中国的标准,这开始只是为了解决知识产权的问题,现在已经在应用方面,我们已经有很多大的贡献了。

所以从性能上来说,刚刚完成的AVS2比上一代提高了1倍。如果和国外最好的标准相比,基本上这是刚刚在广电测试过的一些数据,就是你可以看到对数字视频广播,基本上我们性能相当,对下面这几块,比如说监控视频,AVS2,要比现在的265,我们基本上性能负41.77%,那是什么意思码率比它节省了41.77,负是节省的意思,所以你可以看到大概百分之三十几到百分之五十几。因为码力节省50%,其实性能就提高了一倍。所以对于监控食品AVS2已经跨入下一代了。

这是对于实时通讯的用法,和对于电影静态图像的统计,去年1月份,当时广电总局的广播电视、计量检测中心,专门对AVS2和265对比一个实验,最后得到的结果AVS2做超高清视频是很有优势,它的和HEVC,图像质量下降总体平均是,AVS229%,HEVC3.0,大家知道下降的数越少,其实质量越好。就是比它下降还少了0.1%也就是说广播电视这行当是相当的。

这是刚才的结论就这样来的,这是中央电视台专门为实验拍的东西,每一个码流大概各双方损失了多少等等。这是他们给的一个刚才码流,另一侧是中央电视台测的结论,就是今年2月份为止,又重新针对那码流的测试,最后是在这条件下AVS2和HEVC265它的下降原质量7.2%和8.2%,这是用的标清6兆码流,刚才是超高清5月6号实时发布的东西,所以现在已经在开始做一些应用,当然我们最看重是下面的应用,现在一些主流的企业开始在布局,准备用AVS2冲击全球的市场,比原来的标准提高了1倍的带宽,而且它可以提高识别效率和精度,这是第一个挑战。

后面因为时间关系我就说的快一点,第二个就是识别不准的问题,我们是怎么做的呢?实际上就是产生的编码和识别它像一个铁轨一样,它完全的平行做法,它有什么问题?大家互相之间是不通气。刚才我们说的背景建模技术,可以在你编码的时候,我就把前景测出来,这样的好处你可以进行分析、进行识别、进行提取,编码识别就可以做到,怎么做到?对于上面实施监控视频码流来说,这可以理解为它是有两个码流构造成的,一个是背景,一个是前景码流。背景码流,就是一个背景针,前景是动的,有了前景就好办,你知道哪个是前景,就是你要处理,你要识别,你要跟踪你要分析的东西,所以用这个你只要对前景做好表达,你的任务就可以做的很好,就基于这样一个想法,AVS2也就支持感兴趣区域(RCH),就是语法里面对前景手段你可以对它进行描述,这描述可以针对它,采用特殊参数的编码,尽量使得损失少。对背景接好了以后,背景一次性接过去就比较有效。基于这样的构建你可以很好的识别编码模型,上面背景加全景,在上面就是感兴趣的区域可以得到对象,根据对象之间的关联,以及它们失去关系你可以构造时间,这样就可以在编码的同时把这一件事做了,所以用它可以做很多运动的分析、目标的检测、对象的行为分析等等,这就是用这种工具,我们可以在序列里就很容易测出前景,就把前景表达出来,这是另外一个车,也可以前景,下面是人的动作,也可以通过前景检测的动作,哪里是需要关注的,包括人在道路上走。左边是传统的方式,你要在视频流上去找,但是通过我们表达很简单,因为背景很干净,任务就变的简单多了,这也是一样,你要知道背景是什么,其实你就很容易把前景表述出来。所以我们说AVS2它的国外版本名HE1857,对感兴趣的区域提取对于对象的表达,对动作和行为的检测等等。而且由于这些做了,实际上对多摄像头检测也有非常好的支持。这是在北大校内的系统,我们用这样的系统就可以知道哪里有人在走,哪里有一个车进来了。这是关于第二个挑战就是识别难的问题。

第三个挑战就是说,尽管你有了它的视频,可以做一些识别,跨摄像头有一些问题,而且现在的瑟缩成本比较高,为了解决这问题,实际上我们使用了一种叫做CDVS,也就是说紧缩描述式的,这里面最核心的东西就是说我们一定要想法解决它的描述能力比较强,要紧凑,检索比较快,另外整个特征要比较规范化。如果大家知道多媒体处理历史的话,在MEPG7大概1997年就开始做,前面的版本一直没有什么用,一直到第三个部分叫MEPG(英文)简称CDVC,这大概是从2009年左右开始做的,它里面比较关键就是说,它有特征点的检测,有特征的选择,有描述值的压缩和聚合,最后未知点的压缩,最后构造程这样一个基于描述的视频检索,时间关系不展开了,大家只要记住CDVS就好,这里面涉及到计算机是觉得技术、涉及到机器学习的技术,关于里面最核心的就是兴趣点提取和表述,其实这里面开始我们是用的(SIFT)特征,大家就知道(SIFT)特征到近期最好用的一个特征。

但是(SIFT)特征它在使用时候有很多的问题,后来我们就对(SIFT)特征做了改进,改进的结果以后就可以效果比较好,所以我们把这特征又分成局部和全局。改进的倍数CDVS比SIFT好3倍,然后特征大小是好100倍,然后在100万幅图像上的储存是一百分之一,一个是特征本身,一个是特征储存的,最下面这一行实际上就是说在一千万幅图像库上面,搜索时间CDVS只需要500毫秒就完成搜索,你要找一个东西,到这一千万的图像库上半秒钟解决问题,所以这搜索速度非常快,这只是在英特尔CPU上面就可以做到。所以你想面向智慧城市做这样的任务,实际上并没有太大的标准,这是MPEG第三部分。

这里主要贡献者是北京大学、斯坦福大学、另外还有意大利电影系、华为、慕尼黑研究院等等。因为今年1月份我们在图像处理会刊上专门有一篇,MPEG第一期就可以找得到。这系统实际上是现在在监控里实际使用,所以效果还是相当不错。

总结一下就是对于一个做的智慧城市里面,如果你要考虑多媒体大数据分析的时候,有三个比较大的挑战。压缩问题我们可以通过AVS2去应对,当然你可以有其他的办法。模式识别问题可以通过我们说的因为支持感兴趣区域的AVS2,面向监控的AVS2就可以把这问题解决掉。第三个就是说视频搜索这样一个问题,跨摄像头的搜索,其实可以用CDVS这标准去,当然有更好的技术去开放用,这个领域尽管装了很多摄像头,但是技术上可以使用还是有距离,所以这需要各个方面做技术、做系统、做理论的一起共同协同可能才会有一个好的结果。

好,谢谢大家。

(以上内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载。)

来源:ZD至顶网CIO与应用频道

0赞

好文章,需要你的鼓励

2016

05/19

09:39

分享

点赞

邮件订阅
白皮书