扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
尽管Hadoop具有一些显著的特点,但它并不是唯一的主题。Hadoop和大数据的出色已经不是秘密,诸如社交媒体和网站点击流等新数据源的崛起正在产生新型数据,并可能会带来新的洞察力。Hadoop已经处于这一趋势的前端和中心。由于能够在多个分布式数据集间使用MapReduce,让Hadoop能够分析比传统方式更大规模的数据。
尽管Hadoop具有明显的优势,但它并不能完全解决BI(商业智能)的问题。许多人都指出了目前存在的问题,比方说需要花数小时才能反馈结果,而这些结果可能并不是用户所期望的结果。也有人对实时BI进行了赞扬,因为它们能够与挖掘Twitter和Facebook等情绪流进行关联。虽然这类实时分析具有重要价值,但它们不可能成为企业所期望的洞察力的主要来源。相反它们极有可能会附属于其他洞察力生成模式。
在谈论大数据投资机遇的话题时,投资者总是十分谨慎。他们普遍认为,大数据领域中有一些非常重要的东西,其中尤为重要的是,这是一种面向未来的IT基础设施创新。有人认为大数据中的新基础设施解决方案不会成为风险资本支持的专利产品,它们将成为拥有开源许可的共享开发产品。其中的部分原因是,向市场推出专利基础设施产品非常昂贵,大概需要2亿美元的资金;另一部分原因是目前的创新比较分散,创建一个有足够资金实力、能够垄断这些创新的实体非常困难。
那么,大数据专利投资的意义何在呢?使用大数据的垂直领域将会产生丰硕的成果,而这些成果将以SaaS(软件即服务)的形式被交付。唯一的问题是,这些垂直领域是否要建立自己的计算基础设施,或者是利用亚马逊AWS(Amazon Web Service)。
我个人将这一趋势描绘为“利润迁移”。伟大的软件公司是建立在专有基础设施上的(例如甲骨文),但是这类公司的好日子已经一去不复返了。开源未来将会统治软件基础设施领域。高利润机会将会在哪里产生呢?进一步讲,尤其是垂直市场更需要专业知识,但开源并不太适合解决市场需求。
分析的未来可能并不属于BI,至少BI不会像以前我们所想像的那样。你可能还记得著名的Netflix竞赛。任何团队如果能实现在预测人们喜爱影片方面比Netflix自带的推荐引擎高出10%,就可以拿到丰厚的奖金。这一竞赛的核心是预测分析。一个算法,也可能是数十个或数百个算法,对数据集子集进行分析,以查看它们是否能够识别出一些与其他感兴趣的结果相关的数据元素。当预测算法被识别出来时,它们会对另一个数据集子集进行分析。
以移动用户流失率为例,一家无线公司能够通过查看婚姻状况、支付模式(提前支付、按时支付还是延期支付)、使用数量等条件,评估出对这些要素的分析能否预测出用户是中止他们的合同,还是续签合同。 这一应用的扩展是算法演进,进一步提升在“机器学习”程序中的预测能力。
这类机器学习方法似乎已经宣告传统BI的死亡。但这种新的模式仍存在一些问题,比如其分析的准确性取决于人们在数据中所做的正确关联,而这是一件非常棘手的事情。你将依靠个人判断与偏见来决定查看哪些相关数据,让数据识别哪些是相关的,且更具信服力。
这一问题正变得越来越麻烦。一旦你顺着这条道路走下去,并坚信“让数据告诉我应当做些什么”,本能的冲动是获取更多的数据。例如,移动公司与消费品公司达成了协议,以获取关于其他类型产品采购习惯的信息,以便能够对客户流失情况进行分析。
你可能会认为,这也是一种服务,它为客户提供了与无线服务提供商续签合同的信服理由。这看上去非常不错,但也有越来越麻烦的地方:即财务与信用。多年一来,这一直是一个有关数据采集与精确性的战场。与针对性不强的移动解决方案不同,一份不准确的信用报告将会产生现实的后果。
近期市场上出现了一种新型证券承销公司,它们使用7万个数据信号和10个并行机器学习算法来评估个人贷款。这些公司发现,一些诸如是否有潜在贷款者浏览了网络内容等非传统信号,能够更好地评估出某人是否将偿还贷款。通过分析这些数据信号,放贷企业发现,一些人采用传统征信分析可能并不值得向其发放贷款,但是通过一些数据元素进行详细分析后发现,这些人实际上是具有很小风险的信贷对象。
数据与信用分析的结合将是一个重要的趋势,希望机器学习和大数据领域也会如此。我们清楚地看到了一种新的洞察力,它取代了传统的低效数据筛选方法,利用机器学习的方法设别相关的模式和效果。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。