扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
分析技术与商业智能的发展使得首席信息官们能够以较低的成本、随时随地快速而深入地处理商业数据。
目前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度。例如,随着越来越多的公司开始不得不面对海量数据以及考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现。提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以帮助他们运营业务。
在采访中,首席信息官们总结出了5大影响他们进行分析的IT趋势。它们分别为:大数据的增长、快速处理技术、IT商品的成本下降、移动设备的普及和社交媒体的增长。
1. 大数据
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。Verisk Analytics公司首席信息官Perry Rotella认为所有的首席信息官都应当关注大数据分析工具。Verisk帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。
Rotella认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数据的大幅增长。Rotella的工作是预先寻找事物间的联系与模型。
HMS公司首席信息官Cynthia Nustad认为,大数据呈现为一种“爆炸性”增长趋势。HMS公司的业务包括帮助控制联邦医疗保险(Medicare)和医疗补助(Medicaid)项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。HMS通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad称:“我们正在收集并追踪大量素材,包括结构性与非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB 和 MongoDB)中的一种,其通过特殊的方式组织网络级数据。
Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop实例的按需访问。
Nustad称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS正在探索NoSQL技术的使用。其包括了结构性数据,并且能够被传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad认为Hadoop正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop的受访首席信息官们,包括Rotella和Shopzilla 公司首席信息官Jody Mulkey在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey称:“我们正在使用Hadoop做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为一家比较购买网站,Shopzilla每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作量非常繁重。”自从采用了Hadoop,Shopzilla能够分析原始数据,跳过许多中间环节。
Good Samaritan医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官Chuck Christian称:“我们并没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian未必会对这种新技术进行投资。
Island One Resorts公司首席信息官John Ternent称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在谨慎地考虑在云上使用Hadoop实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解决方案有可能解决我们目前正遇到的实际问题。”
2.商业分析速度加快
肯塔基大学首席信息官Vince Kellen认为,大数据技术只是快速分析这一大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平的重复提升效率。”
保险与金融服务巨头John Hancock公司的首席信息官Allan Hackney称,为了提高分析性能,硬件也需要进行提升,如增加GPU芯片,其与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC和服务器处理器相比,图形处理器的计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
3. 技术成本下降
随着计算能力的增长,分析技术开始从内存与存储价格的下降中获益。同时,随着开源软件逐渐成为商业产品的备选产品,竞争压力也导致商业产品价格进一步下降。
Ternent为开源软件的支持者。在加入Island One公司之前,Ternent为开源商业智能公司Pentaho的工程副总裁。他称:“对于我来说,开源决定着涉足领域。因为像Island One这样的中等规模公司能够用开源应用R替代SAS进行统计分析。”
以前开源工具仅拥有基本的报告功能,但是现在它们能够提供最为先进的预测分析。他称:“目前开源参与者能够横跨整个连续统一体,这意味着任何人都能够使用它们。”
HMS公司的 Nustad认为,计算成本的变化正在改变着一些基础性架构的选择。例如,创建数据仓库的一个传统因素是让数据一起进入拥有强大计算能力的服务器中以处理它们。当计算能力不足时,从操作系统中分离分析工作负载可以避免日常工作负载的性能出现下降。Nustad称,目前这已经不再是一个合适的选择了。
她称:“随着硬件与存储越来越便宜,你能够让这些操作系统处理一个商业智能层。”通过重定数据格式和将数据装载至仓库中,直接建立在操作应用上的分析能够更为迅速地提供答案。
Hackney观察认为,尽管性价比趋势有利于管理成本,但是这些潜在的节约优势将被日益增长的能力需求所抵消。尽管John Hancock每台设备的存储成本在今年下降了2至3%,但是消耗却增长了20%。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者