科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道CIO加油站搞清非结构化数据:不仅仅是技术

搞清非结构化数据:不仅仅是技术

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

之所以称之为“非结构化”,是因为这些数据不能被整齐划一地放入数据库或电子表格的行和列中。事实上,绝大多数业务信息均是非结构化数据。这些信息来自电子邮件、备忘录、视频、客户电话、微博、Facebook消息和博客等,而且通常难以量化。

来源:ZDNet CIO与应用频道 2013年1月8日

关键字: 大数据 数据分析 数据挖掘 非结构化数据

  • 评论
  • 分享微博
  • 分享邮件

ZDNET至顶网CIO与应用频道 01月08日 综合消息:超市应当如何布局才能使销售额最大化?表面上看,向数据科学家提出这个问题似乎不太恰当。消费者的行为难以量化,无法预测,貌似是非理性活动。为什么某些消费者在特定通道花的时间要比其他购物者多?为什么不同消费者逛商店的首选路径会有所不同?为什么有些商品在早上卖得好,在下午却卖不动?

要回答这些问题,就必须分析非结构化数据。之所以称之为“非结构化”,是因为这些数据不能被整齐划一地放入数据库或电子表格的行和列中。事实上,绝大多数业务信息均是非结构化数据。这些信息来自电子邮件、备忘录、视频、客户电话、微博、Facebook消息和博客等,而且通常难以量化。

因其非结构化性质,这种数据很难进行大规模分析。近年来,人们对“大数据”的兴趣日增,这背后的原因正是非结构化数据的大幅飙升。凯捷与经济学人智库最近进行的一项研究表明,大部分(58%)企业高管在做出商业决策时,依赖于非结构化数据分析。对于公司而言,这些难以处理的新型海量信息意味着巨大的挑战,但同时也是绝佳的机遇。分析的数据越多,发掘重要洞察信息的能力就越强。

技术供应商高谈阔论非结构化数据中的隐藏价值。他们说,搞清非结构化数据的意义是数据分析的最后一篇战场。找到一种方式来获取所有对话、PowerPoint演示文稿和微博中的信息,公司就能从“大数据”中收获真正的财富。但是,这些供应商的出发点本身存在错误。商业型项目不应当从审视研究数据开始。首要任务是确定您试图回答的问题。我的理想顾客是谁?产品为什么滞销?这些都是业务问题。然而,技术供应商试图回答的却是技术问题:我们如何挖掘数据?如何在信息的汪洋大海中捞到那根“针”?

搞清非结构化数据的意义仅在一定程度上与搜索有关。真正的价值来自将非结构化数据同其它地方的更具结构性的信息联系起来。如何做到?考虑公司会如何提炼所有员工的信息。企业内部成百上千万的信息交流中蕴含着大量的宝贵见解,但是如何聚焦于最相关的信息并将其转化为真正的洞察呢?

第一步是弄清您要解决的问题。例如,这有可能是确定销售流程的效率。如何用更少的资源做成一笔买卖?挖掘来自电子邮件、员工博客,乃至语音呼叫的海量非结构化数据之前,您必须确定与其相关的重要结构化元素。您的目标是捕捉那些有助于解决问题的特定信息交流。但为了确定谁同谁谈论了什么话题,您首先要准确地标记“交谈发起者”、“交谈内容”和“交谈对象”开始。

“交谈发起者”用于确定与员工相关的用户名、登录信息和其它ID。如果从五个人那里获得的信息其实都出自同一个来源,那这些信息就毫无意义。接下来,您必须了解自己要分析的话题。内容必须进行结构化处理,否则根本难以理解。最后,您的客户是谁?您是否使用了正确的术语来捕捉所有与该客户相关的信息?必须确保捕捉到每项信息关联的部门、缩写和控股公司。RBS还是NatWest?BSkyB、Sky还是News Corp?

然后,您就可以将这一完整结构化框架与从选定组别的许多不同对话中梳理到的非结构化信息相结合。可能的分析结果:销售额最大的公司也是员工谈论最多的公司,这说明贵公司内部沟通良好。但也有可能出现以下情况:人们谈论最多的客户并未产生与之相当的收入,这说明销售流程存在严重不足。

当前,许多供应商将非结构化数据当作一个独立的技术挑战来处理。但只有事先确定了重要的关系结构信息,才有可能搞清楚非结构化数据的意义。如果某位员工对特定话题95%的相关信息交流负责,那么毫无疑问,他或她就是该话题的信息中枢。如果模型未能发现基本的结构化信息,无法证明各种不同的登录信息和ID属于同一个人,那么您可能意识不到上述事实。如果数据混同于噪音,那就无法做出准确的决策。

如何利用非结构化数据来设计超市的最佳布局?零售公司、主题公园甚至警察局会使用人群分析来预测人群在某些情况下会如何反应。针对超市,可以分析消费者的视频来记录人们逛商店的路线、逗留位置、将商品放入购物篮的地点,以及他们在面对拥挤人群或死胡同时的反应。然后将这种非结构化信息与结构化数据(例如某些产品在货架上的摆放位置或收据)相结合,以产生关于消费者行为的完整数据分析图景。

一旦有了这种信息,就可以基于多种不同情形预测未来的销售情况。如果山羊奶酪换一下位置,人们是否会买更多的葡萄酒?如果将价格较低的啤酒移动到离过道较远的地方,人们是否会买更多的优质啤酒?如果在糕饼区附近人为制造一段狭窄的过道,超市会不会卖出更多的面包?组合运用结构化和非结构化数据来寻找此类问题的答案,是成功进行预测分析的基础。但只有利用全部可用数据构建一幅完整的图景,才有可能做出精确预测。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章