大数据应用？你先搞定数据获取再说

大数据不再像过去几年一样，受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家，还会被R和Hadoop之类的开源工具搞得心烦意乱。现在许多公司在大数据分析中最头疼的问题，其实是如何获取数据。

虽然大数据已经变得更像一句营销术语，但是它仍有巨大的潜力没有被挖掘出来。不过，得先把数据获取这个大麻烦解决了。

企业在面对数据的时候，比知道怎么处理更多的情况，是在这些数据里漫无目的的游泳。遗憾的是，太多的公司将这种现象与大数据本身关联起来。从技术角度来说，大数据是非常具体的一件事――结构化数据(企业的专有信息)与非结构化数据(社交媒体数据流和政府新闻源之类的公共数据源)的结合体。

如果你将非结构化数据覆盖在结构化数据之上，通过分析软件将其可视化，你就会得到过去从未有过的洞察力――预测产品销售、更精准地目标用户、新的市场机遇，等等。

大数据不再像过去几年一样，受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家，还会被R和Hadoop之类的开源工具搞得心烦意乱。

如今，多少公司都争着帮你可视化大数据：从Tableau、Qlik、TIBCO和MicroStrategy之类的专业公司，到微软、IBM、SAP和甲骨文之类提供端到端服务的厂商，不一而足。

不过，据上周出席奥兰多中级市场CIO论坛/中级市场首席营销官(CMO)论坛的IT主管们声称，许多公司在大数据分析中最头疼的问题，其实是如何获取数据。

一位CIO说：“我们IT部门的最大问题，是我们如何才能将数据获取进来，这件事非常麻烦。”

这种说法也得到了相关数据的证实。

数据集成公司Xplenty开展的一项调查声称，三分之一的商业智能专业人员把50%至90%的时间，花在了清理原始数据和将数据录入到公司的数据平台的准备工作上。这种现象的原因，可能与只有28%的公司认为自己能从数据中获得战略性价值有很大关系。

数据清理的问题还包括，眼下IT行业许多最抢手的专业人员，正在花大量时间处理这项让人晕头转向的工作：在分析数据之前先筛选并组织整理数据集。

这显然对于数据的可扩展性非常不利，也严重限制了大数据的潜力。随着物联网不断发展，收集更多的数据对我们来说将越来越容易，这个问题只会变得更严峻。

有三种可能的方法有望解决这个问题：

1. 大数据分析软件不断完善――许多这些公司在过去五年时一直投入大量精力在大数据领域，减轻数据清理环节压力的工具不太可能在短期内出现重大突破，但有望实现逐步改进。

2. 数据准备人员成为数据科学家的助手――正如律师助理帮助律师处理重要的基础工作，数据准备人员也会帮助数据科学家处理基本上同样的底层任务。我们已经在某种程度上看到了这一幕。不妨阅读TechRepublic的这篇文章：《“数据标记”是人工智能时代的新新蓝领工作吗?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理数据――另一种可能性是，用来清理、筛选和分类数据的软件和算法将被编写出来。这一幕极有可能出现，但是我们还应预料到，这也不是“银弹”。微软、IBM和亚马逊正在致力于用人工进行软件无法处理的数据标记工作――而这正是全球自动化和算法领域的三巨头。

来源：51CTO

大数据

0赞

好文章，需要你的鼓励

大数据应用？你先搞定数据获取再说

来源：51CTO

2016

04/13

15:14

分享

点赞

亚马逊云科技的“AI毛坯房”，能解决游戏出海80%需求吗？

月之暗面AI模型注意力机制新突破：让AI更聪明更快的"记忆管理术"

Sora 2应用向美国等地用户全面开放，无需邀请码

Perplexity与Getty Images签署多年许可协议，应对版权争议

AWS业绩超华尔街预期，云基础设施需求持续旺盛

德州核电数据中心合作项目启动，计划2031年投产

高通骁龙X Elite和X Plus笔记本芯片详解

众智有为 致敬同路人｜四川赛狄：从“碰撞”到“同路”，一位华为同路人的蜕变之旅

亚马逊股价大涨，AWS云业务增长加速

Microsoft 365 商业客户无处躲避 Copilot 功能扩张

Google Chrome推出AI操作按钮对抗AI浏览器

下一代云服务器将在1.7万英里高空轨道运行的原因

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

混合能源系统能否解决数据中心的供电难题？

文化与云计算相结合：Regeneron 的数据驱动之路

Confluent 云业务增长强劲，股价飙升

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

众智有为致敬同路人｜四川赛狄：从“碰撞”到“同路”，一位华为同路人的蜕变之旅

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案