将大数据变成可管理的数据

日前，美国麻省理工学院计算机科学与人工智能实验室和以色列海法大学的研究人员已经开发了一个解决方案，将大数据变成可管理的数据。

大数据是无所不在的，因为它可以提供有价值的洞察力，如果没有它是不可用的。然而，分析大数据集可能会产生问题。首先，大数据是大规模的，有时太大，不能通过常用的分析工具有效地处理。日前，美国麻省理工学院计算机科学与人工智能实验室和以色列海法大学的研究人员已经开发了一个解决方案，将大数据变成可管理的数据。

通常使用诸如低秩近似，奇异值分解，主成分分析和非负矩阵分解的数据分析工具来减少数据集中的变量的数量。不幸的是，在大量大数据集上使用这些工具通常太费时，不实用。
　　
解决这个问题的典型解决方案包括为大数据集找到一个核心集。核心集是大数据的一个子集，用于保留大数据最重要的数学关系。数据分析工具可以更有效地与coreet工作，因为它更小。
　　

如果要进行两个或多个数据分析，则进行查找可能是一个问题，因为从大数据中提取核心集，每个分析工具都有自己唯一的方法。在分析中比较结果，将涉及比较来自不理想的不同核心的结果。研究团队通过开发一种用于提取可由大量常用数据分析工具使用的核心集的通用方法来解决这个问题。
　　
假设工作人员想要识别在一个巨大的文本数据库（如维基百科）中最常出现的主题。低秩近似是一种将完成这项工作的算法，但维基百科数据库非常大，因此，采用低秩近似将花费太长的时间来完成任务。
　　
维基百科数据库有多大？想象一下，在维基百科中每一篇文章都有一行的矩阵或表格，以及在维基百科中出现的每个单词的列。该矩阵将有140万篇的文章和440万列的单词。这是一个约6.2万亿个单元格的表格，平均分配到地球上每个人，每人约为821个单元格。这的确是一个大数据。
　　
研究人员的解决方案使用高级类型的几何知识来将这个巨大的数据集缩减为更易于管理的核心集。想象一下，通过一个二维的具有长和宽的矩形就很容易处理。现在添加第三个维度，深度。也很容易想象这是一个盒子，现在添加第四个维度，时间。我们称之为时空，但它不是那么容易想象。现在添加两个或三个更多的维度，并想象它的外观。
　　
人们无法想象这些多维空间看起来像什么，但是可以采用几何知识描述。为了缩小维基百科矩阵，研究人员使用了一个叫做超循环的多维圆，它有440万个维度，可以表达维基百科中出现的每个单词一个。维基百科中的140万篇文章中的每一篇都表示为这个超循环上的唯一点。
　　
研究人员如何将超循环收缩成更易于管理的东西？维基百科中的440万列单词的每一个都由一个变量表示，维基百科中的每篇文章都由这些440万个变量的唯一的一组值表示。研究者的超循环技术涉及一次获取一篇文章，并找到其440万个变量的一小部分的平均值，例如50个变量。最好保留变量之间的数学关系的平均值可以通过计算表示50个变量或单词的这个小得多的50维超循环的中心来找到。然后将平均值作为coreet中的一个数据点输入。而对每篇文章中的剩余变量（单词）和140万篇文章中的每一篇重复这个过程。
　　
使用此方法将大数据维基百科矩阵缩减为核心集需要大量的单独计算，但每个计算都可以非常快速地执行，因为它只涉及50个变量。其结果是一个核心集，它保留了大数据中存在的重要的数学关系，并且足够小，可以被各种数据分析技术有效地使用。
　　
超循环技术的真正核心在于这种品种。该技术创建了一个核心集，可以被许多数据分析工具使用，这些工具通常应用于计算机视觉，自然语言处理，神经科学，天气预报，推荐系统等。甚至人们可能认为超循环，都是他们所有规则的一环。

来源：机房360

大数据

0赞

好文章，需要你的鼓励

将大数据变成可管理的数据

来源：机房360

2016

12/20

17:33

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

混合能源系统能否解决数据中心的供电难题？

文化与云计算相结合：Regeneron 的数据驱动之路

Confluent 云业务增长强劲，股价飙升

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案