扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNet CIO频道 2012年10月16日
关键字: 大数据
本文将介绍大数据部署的三种方式,包括套装软件搭配自组硬件、软硬件整合的一体机,以及采用云端巨量分析服务。
1 套装软件搭配自组硬件
目前包括Hadoop、Greenplum以及Aster Data都有纯软件产品以及软硬件整合的一体机产品,如果企业选择以纯软件产品,虽然具有可以自由搭配硬件的优势,但却也相对挑战企业的技术能力,因为软件的数据处理效能是否可以充分发挥,往往与所搭配的硬件规格、平台架构以及系统调校有关。
一般来说,企业在评估数据处理平台时,如果选择采用软件型态的解决方案,通常都具有强大的系统架构规画能力与维护能力。不过,台湾有家晶圆公司为了解决大数据问题,1年多前开始寻找各种软硬件的大数据解决方案,最后则决定以Hadoop搭配x86架构,作为发展大数据处理平台的主轴。然而,在第一阶段的概念验证结束后,这家晶圆厂商公司小规模试行,并且部署了10~20台服务器,却发现数据处理效能不如预期,理论上,以Hadoop架构可以几分钟完成的数据量,最后却花费了1小时,其中的关键在于企业IT人员对Hadoop技术的掌握能力不足,以致于造成MapReduce程式与HDFS、Linux相互争夺硬件资源,最后导致当机。
2 软硬件整合的一体机
相较于软件解决方案的技术门槛,以硬件形式推出的一体机,不仅同时具有软硬件整合的优势,更重要是,系统效能调校也已经做到最佳化,对于企业来说,采用一体机可以大幅节省部署大数据处理平台的时间,后续的维护也比较轻松,不过,一体机通常会配置比较贵的硬件,因此,成本效益的考量仍旧是企业必须斟酌的地方。
目前IBM、Teradata、惠普、甲骨文、精诚资讯Etu以及EMC都推出了大数据一体机产品。不过,各家厂商所采用的数据处理技术是否具有开放性,将是企业未来面临扩充时能否无痛转移的关键。以EMC的产品来说,虽然是采用MapReducer的理论来做分散运算,但储存技术是来自EMC的MapR File System,而非Hadoop的HDFS,因此,虽然可以横向扩充,但储存技术就必须依循EMC的发展。
各大数据厂商为了因应大数据需求,不可能沿用10年前就开始发展的数据处理架构,因此过去2年并购动作频频,IBM收购数据分析公司Netezza、惠普买下了即时分析平台Vertica、数据仓储厂商Teradata并购Aster Data、储存大厂EMC更接连收购数据仓储厂商Greenplum以及磁碟阵列厂商Isilon,这些数据大厂通过并购所取得的技术,目前都已经与既有产品线完成整合,同时并相继推出了一体机产品,例如:Teradata的Aster Data Appliance,预计未来还可看到更多有关一体机的产品。
3 采用云端巨量分析服务
然而,从企业的角度来看,大数据处理平台并非一定得要通过软硬件厂商取得,在美国,有不少企业的大数据处理,是部署在云端架构系统环境上,目前这个领域主要的服务供应商有Amazon,Amazon的云端服务AWS,总共有20多种服务,其中的EMR(Elastic MapReduce)服务,可以让企业省去部署Hadoop丛集的工程,企业只需要把MapReduce程式,载入到EC2(Elastic Compute Cloud)虚拟机器执行EMR来运算即可。
除此之外,由于Amazon在台湾并没有机房,而大数据所处理往往是TB级以上的数据量,以这样的数据量与目前的网路频宽传输速度,绝对无法因应企业营运的大数据处理需求。业内人士指出,如果大数据处理的需求,只是一次性或者是短期的数据处理需求,可以通过Amazon这样的云端服务模式处理数据,但若是长期需求,则不建议。
总之,究竟大数据要用哪一种平台来处理,除了对各种技术平台的掌握能力之外,还要看企业对大数据分析速度的期待,需要多快就要产生分析结果,几秒钟内就要做决策判断,又或大数据的应用是要做长时间的大量数据分析。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。