大数据 关键字列表
Spark创始人Matei Zaharia凭借大数据开源贡献荣获ACM计算奖

Spark创始人Matei Zaharia凭借大数据开源贡献荣获ACM计算奖

Apache Spark创始人Matei Zaharia荣获美国计算机协会(ACM)年度计算奖,奖金25万美元。他在加州大学伯克利分校攻读博士期间开发了Spark,解决了大数据处理门槛高的问题,支持Python、SQL等多种语言,大幅降低使用难度。他还联合创立了估值1300亿美元的Databricks,并参与开发Delta Lake、MLflow等开源项目,对数据分析与AI领域产生了深远影响。

中国人民大学团队发明AI记忆新方法:让人工智能拥有"过目不忘"的超能力

中国人民大学团队发明AI记忆新方法:让人工智能拥有"过目不忘"的超能力

中国人民大学研究团队开发的MemSifter系统通过训练专门的"记忆管家"模型解决了AI长期记忆检索难题。该系统采用任务结果导向的强化学习方法,让小型代理模型负责从海量历史对话中筛选关键信息,避免大型模型被记忆检索拖累。在八个测试数据集上,MemSifter在准确性和效率方面都超越现有方法,代表了AI记忆管理的重要进步。

女王大学重磅发布:AI编程助手正在重塑软件开发世界

女王大学重磅发布:AI编程助手正在重塑软件开发世界

女王大学研究团队通过分析GitHub上932,791个AI编程助手创建的代码修改建议,构建了AIDev数据集,首次全面揭示了AI编程助手在真实软件开发中的应用现状。研究发现AI助手能有效处理重复性任务并提高开发效率,但在安全性和创新性方面仍有局限,同时展现出与人类协作的潜力,为软件工程3.0时代的人机协作提供了重要数据基础。

Meta发布Action100M:让AI真正看懂人类动作的超大规模视频数据集

Meta发布Action100M:让AI真正看懂人类动作的超大规模视频数据集

Meta联合多所大学发布Action100M,这是史上最大规模的视频动作理解数据集,包含1.47亿个动作片段和212.7亿词汇标注。该数据集采用全自动化处理流水线,能够分层理解从细粒度手部动作到复杂任务流程,为AI理解人类行为奠定了坚实基础,将推动智能家居、教育培训、内容创作等领域的技术进步。

Databricks 开源声明式 ETL 框架,实现流程构建加速90%

Databricks 开源声明式 ETL 框架,实现流程构建加速90%

Databricks 开源了其核心声明式 ETL 框架——Apache Spark Declarative Pipelines(原 Delta Live Tables),简化了批量和流式数据处理,显著缩短开发和维护时间,并将这一技术普惠于整个 Apache Spark 社区,同时向 Snowflake 发起挑战,提供从数据源到可用信息的全流程处理能力。

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

NASA人员分析团队因成本考虑,从使用十年之Neo4j转向Memgraph,提升了实时数据分析和Python集成效率,并支持智能查询系统应对预算紧缩。

Acceldata 现已具备跨维度检测数据异常的能力

Acceldata 现已具备跨维度检测数据异常的能力

Acceldata 宣布其 xLake Reasoning Engine 新增 Adaptive AI 异常检测功能,该功能能跨销售、产品、区域、时间等多维度自动识别隐藏异常,帮助企业及时发现风险,并通过人工干预实现自动化修复。

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

Ocient成功融资4210万美元,加速研发基于NVMe SSD与计算近接存储架构的绿色、低成本大数据与 AI 分析解决方案。

SAP业绩超预期:关税未扰业务进程

SAP业绩超预期:关税未扰业务进程

SAP公布财报显示,尽管营收略低于预期,其营业利润大幅超预期,同时云收入显著提升,并维持全年指引,成本管控与新客户拓展为增长奠定坚实基础。

CIO们必须关注自身数据信任缺口

CIO们必须关注自身数据信任缺口

文章指出高管与IT领导对数据质量信心存在明显差距。高层依赖整洁汇总的仪表盘,而接触数据前线的IT领导则发现系统断裂、数据混乱及仓促上线的AI项目隐患,建议加强内部透明度和完善数据管理策略。

跨联科技完成大规模数据迁移项目,推出全新分析和安全服务

跨联科技完成大规模数据迁移项目,推出全新分析和安全服务

TransUnion信用报告公司宣布其大规模数据湖项目即将完成,OneTru平台已为内部和客户带来显著收益。该平台支持新的信贷风险产品、身份营销解决方案和欺诈预防服务,提高了生产力并改善了客户体验。公司正专注于为客户提供分析、风险管理等服务,并计划推出可组合的灵活平台。

混合能源系统能否解决数据中心的供电难题?

混合能源系统能否解决数据中心的供电难题?

随着数据中心对电力需求的快速增长,传统电网供应已难以满足。开发商正在探索混合能源解决方案,通过结合电网供电、现场发电、风能太阳能、储能系统甚至核能等多种能源,来满足数据中心的用电需求。这种方案不仅要考虑成本效益,还需平衡可持续性目标和供电可靠性。

文化与云计算相结合:Regeneron 的数据驱动之路

文化与云计算相结合:Regeneron 的数据驱动之路

Regeneron 制药公司 CIO Bob McCowan 分享了公司如何通过云计算、大数据和人工智能等技术来充分挖掘历史数据的价值。他强调了在应用新技术时需要平衡风险和实用性,并指出生成式 AI 虽有潜力,但不会取代科学家,而是会让优秀的科学家变得更出色。公司通过建立集中式数据平台,实现了研发到生产全流程的数据打通,提高了效率。

Confluent 云业务增长强劲,股价飙升

Confluent 云业务增长强劲,股价飙升

Confluent 发布强劲财报和乐观指引,并宣布与 Databricks 达成重要合作。公司第四季度业绩超预期,云业务增长38%,成为主要收入来源。Confluent 看好实时数据流在 AI 应用中的重要性,新合作旨在打通数据生成和分析系统之间的鸿沟。这些利好消息推动公司股价在盘后交易中大涨14%以上。

数据湖与数据中心的区别:不仅仅是沧海一粟

数据湖与数据中心的区别:不仅仅是沧海一粟

随着人工智能和大数据的兴起,数据湖和数据中心这两个概念经常被混淆。本文深入剖析了两者的根本区别:数据湖是软件平台,用于集中存储各类数据;而数据中心是物理设施,用于部署IT设备。文章还探讨了两者的关系,以及为何准确理解这一区别对企业至关重要。

大数据公司 dbt Labs 收购 SDF Labs 以提升 SQL 代码理解能力

大数据公司 dbt Labs 收购 SDF Labs 以提升 SQL 代码理解能力

dbt Labs 宣布收购 SDF Labs,旨在提高数据处理速度和质量。SDF Labs 的 SQL 理解技术将被整合到 dbt 平台中,为用户提供实时代码反馈、错误识别和数据质量保证。此次收购将大幅提升 dbt 用户体验,加速开发效率,并增强数据治理能力。

保险公司错误发送退款邮件引发混乱

保险公司错误发送退款邮件引发混乱

英国保险公司 Hastings Direct 本周因技术问题向部分客户错误发送退款通知,随后匆忙道歉。这一事件暴露出公司数据管理和邮件系统存在漏洞,引发客户困惑。尽管 Hastings Direct 一直致力于数字化转型,但此次事故表明,技术升级过程中仍需谨慎处理数据和系统集成问题,以避免类似失误。

AWS选择Iceberg联合分析平台

AWS选择Iceberg联合分析平台

上周,AWS全力拥抱了Iceberg。对于开发人员来说近乎无处不在的存储容器S3 Buckets又多了一层。

年终盘点:2024年最炙手可热的10家大数据初创公司
2024-12-19

年终盘点:2024年最炙手可热的10家大数据初创公司

数据已经成为很多企业和组织的宝贵资产。他们正在分析数据以深入了解市场、客户和他们自己的运营情况。他们正在使用数据来推动数字化转型计划,支持新的数据密集型服务。

AI数据中心(AIDC)和IDC概念、指标等对比分析

AI数据中心(AIDC)和IDC概念、指标等对比分析

AIDC的基本架构可以划分为多个层次和组成部分。在总体架构上,AIDC可以被划分为基础设施层、平台管理层、大模型开发平台层,以及行业应用层,如图所示。