扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
自国外研究机构麦肯锡的一份研究报告提出“大数据”概念后,经过过国外媒体的后续跟进报道,引起IT界一片不小哗然,逐渐成为人们耳熟能详的概念,一举成为目前各大论坛必谈话题的座上宾。
概念背后所折射出的价值有多大和覆盖的产业有多广,真的如媒体所说,将是所有企业下个金矿的开始,以及下一波IT技术革命到来的前夜?目前从企业CIO声音来看,还是值得商榷的。
此时也许听听真正奋战在企业IT生态系统建设一线的CIO们的声音,比跟随概念有意义的多,他们的声音也许才是决定未来大数据落地的关键因素。从他们的表述中来认识以及分析大数据在企业落地的实际情况以及与概念之间的距离,才是IT企业应用大数据真正意义的一件事。
不可否认的是,随着互联网搜索业务、电子商务以及社交网络的快速发展,大量的用户个人信息、交易信息、转账信息被积累起来,经过数年的快速发展,数据量的快速增长为大数据落地提供了真正的保障。
而传统企业,对大数据认识及应用又是一个什么样的现状,在中外运CIO刘闽生看来,大数据对电子商务、社交网络、搜索引擎价值不言而喻,对传统企业,为了带来更加便利的客户服务价值,时而会分析经营业务过程中所产生的数据也是彰显大数据价值的一面,但还未到业界说的那般应用火爆场面。
企业关注落地数据
互联网的快速发展催生出类似谷歌、Facebook、亚马逊以这样的世界级的企业,用户在使用这些互联网服务时能够产生大量的数据,谷歌产生用户的搜索行为数据、Facebook产生个人结构化与非结构化信息数据、亚马逊产生用户网上交易的结构化数据,这些企业通过多年发展积累下来的数据对企业来说是一笔有待挖掘的数据金矿,数据背后承载的也是企业未来发展风向标,大数据对互联网企业没有夸大其词,刘闽生说。
互联网企业谈的大数据,是建立在产生大量数后形成数据仓库,其中数据仓库中有结构化与非结构化的数据,而非结构化数据包括文字信息、多媒体信息、图片信息,将这些集成起来即是所谓大数据。
但传统企业不这样认为,企业不会将不同种类的数据进行集成。经过企业有目的安排将数据与文件相隔开,存储在不同的位置,然后处理已经分好类的数据。同时传统企业数据的类型在中外运CIO刘闽生看来,只有结构化数据。
企业很难产生非结构化数据原因在于传统企业是经营活动的主体,经营过程在企业原有业务结构基础上必须是结构化的数据来支撑,一般企业数据都是事先计划或者分析架构产生的数据,产生的数据一定是结构化。
对成立于2002年集海运、陆运、空货运、仓储码头服务、快递、船务代理及货运代理业务于一身的服务体系的中外运来说,在日常经营过程中产生的数据量相比传统其他类型的企业所产生结构化数据已经很多,但相比互联网产生的PB级数据量相比,中外运只能达到二十多个TB数据量大小。
其中,中外运在日常运营过程中所产生的主要数据来自于,运输目的地、发运港、运输方式、结算方式、支付方式,货币兑换价等最后形成一条数据记录。从集装箱开始到运到码头,报关、商检、装上船。上船后须通知客户什么时候结算,运费多少等最后同样会产生一条数据。以及2003年中外运将全国接近500个核算单位的企业财务系统 集中北京总部后,数据每月会达到一千万条单票行。
这些数据中外运是如何处理并得到最大化应用的?在刘闽生看来数据处理分为两部分来处理,实时处理和非实时处理,实时的业务处理是将当时业务操作需要的一些数据。
分析客户过去累积的数据时,历史数据表现良好,而不代表目前几个月的客户数据一直保持良好记录,此时为调查用户过去数据记录的行为称为实时数据处理,处理过程中为了提高质量与速度,采用分段式处理,提高处理效率,刘闽生说。
比如与客户签单时,先查他过去信誉情况如何,在国内物流运输的仓储、汽车运输、铁路运输、航空运输各个环节的案例里面有没有欠账,多个业务系统都要走完一遍,才能给他一个结算。
而这些数据是如何处理并得到有效应用的,中外运在数据处理上,每月会根据业务所积累的数据作一次数据整理,然后将其存储在固定地方。
上述案例应用数据所得到的价值是建立在过去一年中业务经营过程中所积累并经过处理的有效数据,通过每月的一次数据整理,数年积累将形成的二十TB级别的数据,然后将这些数据经过一些BI、数据挖掘、分析等工具来实现中外运的数据价值。
另外一种叫非实时处理,比如说看一个客户的过去记录,将当天数据做处理后存在固定地方供查询使用后,这样查询的速度可能会很快,而一旦今天的数据丢失抑或其他情况没有得到记录,只能看到当天以前的数据,成为非实时数据处理。
在企业的两种数据处理方式中,非实时基于数据量不是很大与实时基于时间短的等因素,处理方式都可以采用BI、数据挖掘等工具来即可实现数据价值。所以刘闽生表示,传统企业从数据类型和数据量的大小与互联网企业都会有很大区别,企业更多时候关注的数据比较实际。
压低成本提供服务
基于中国传统企业获得快速发展起步比较晚的缘故,历史积累的数据量相比现今快速发展互联网企业以及国外企业不可同日而语。
类似国内银行等传统机构,都是在十几年前开始做大量数据集中管理,比如个人银行账户开始依赖一张存折存取款,并且只能在存折所在地进去存取款,即使跨行业务都不能完成。为了解决此阶段瓶颈,接下来银行做的第一件事即将大量个人信息的住址、存折账号、姓名、查询进行了电子化,把人工业务操作变成计算机处理业务,使业务得到提升。
再接下来,将同一地区内所有银行的计算机连接起来,将数据集中统一管理,此时个人银行业务实现了跨行处理。
再往后,全国联网统一,异地存取款服务统一起来,也就是现在的全国银行联网。全国联网后,银行推出实名制,开始产生大量有价值的个人账户数据,按全国10亿人计算,会产生大量TB级别的数据,为外部客户提供个性化服务打下良好基础。
同样零售行业也涉及到个人账户数据,比如大型商场会通过信息系统追溯个人账户在商场买哪些东西,销售额度多少等个人数据。在全国连锁店范围内的全部个人信息集合起来,进行分析,对外按需提供服务,商场里摆放那些东西最受消费者喜欢,以提高销售额度。这是数据处理所得的一个分析结果,刘闽生如是说。
在企业日常经营过程中会产生大量数据,中外运就是一个最佳示例,刘闽生说:“从财务角度看,每年都会有接近十几万新增客户,累积下来有接近六十万条数据记录,如此庞大数据量都能够为企业所用吗?答案是否定的。”
客户数据虽然很多,通常最后被企业真正所用到的数据占总数据量的也就是20-%30%,刘闽生称。
企业内部业务经营过程中,哪些成本太高,那些成本不合理,哪些流程太多,都可以通过以往积累的大量数据中,通过数据挖掘、分析等方式来改变已有的企业管理结构。刘闽生说,国内企业数据处理主要目的,是对企业内部压低成本、精简流程,对外部外部提供优质服务。
在刘闽生看来,大量数据必须经过结构化、规范化处理才能为企业所用。比如,中外运在接客户惠普的单子时,合同上可能标注中国惠普、北京惠普、惠普中国、惠普有限公司等数字标签,类似这样的数据处理起来来代价非常高,如果结算过程中在系统中检索“惠普”未必能够找得到。
这时需要建立一个规则或者一个集群,将所有凡是涉及到惠普的关键词纳入到所建惠普集群里。通过整理后的数据才能变成一个有效有价值的数据。
中外运的企业数据只对内部开放而不向外部开放,供企业内部员工操作和管理提供便利。如果对社会开放是要经过严格客户认证,刘闽生说。
结语
随着技术发展,物联网技术将是企业产生大量数据的集中爆发点,将把监控不同地点、不同状态的信息收集起来以后,形成不同状态的数据变成一种检索信息抽取出来。但那是新的应用产生新的解决方案。而这种技术还是会和传统技术相结合,将数据分类,再分析处理。与之前最大不同之处在于,数据量更大了,CPU处理速度更快快了,规模更大了,应用的范围更广了,刘闽生最后说。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。