ZD至顶网CIO与应用频道 04月06日 北京消息:Teradata天睿公司(Teradata Corporation,纽交所:TDC)宣布推出一种全新的数据湖部署“设计模式”,利用多年在大数据咨询和优化方面丰富的经验,帮助客户建设数据湖并获益。作为业内首次推出,全新的设计模式方法将使得Teradata继续领先同业,帮助企业用户、数据科学家和IT专业人员建立数据湖,并产生卓越的业务价值。
企业正在探索数据湖的功能,在激增的数据量中产生洞察和机会。然而,一些严重的问题也令其IT团队备受困惑,包括:缺乏最佳实践、缺少数据科学家,甚至存在数据湖定义的混乱等。除了这些挑战,技术的选择也越来越多。例如,数据湖通常被假定为Hadoop的代名词,尽管Hadoop是处理大量数据湖工作负载的良好选择,但是数据湖构建可以使用多种技术,如Hadoop、NoSQL、Amazon S3、关系型数据库(RDBMS),以及各种技术组合等。虽然技术选择攸关洞察结果,但是成功的数据湖亦需要周密的计划。数据湖设计模式包含一系列基于企业级最佳实践的知识产权,以及在大量的客户成功项目中共同开发的产品等。
全球知名的科技分析研究公司OVUM高级分析师Tony Baer表示:“Teradata已经率先为数据湖确定了实施模式。数据湖不同于操作型数据存储系统,Teradata的价值主张源自真正的实践经验,帮助客户应对不同环境中的数据管理。收购Think Big后,Teradata获得了设计模式这一宝贵的知识产权,将有助于构建透明的数据湖。”
通过访问新的数据,例如存储在数据湖中的客户服务记录、点击流数据、IP流、日志信息和传感器数据等,用户能够解决通常需要多次同步解读的数据,并进行相互验证的难题。这些应用案例包括:
Ÿ 通过提取存储在数据湖中客服通话的文本信息,创建客户流失侦测的改善模型,再应用预测性文本分析方法。
Ÿ 通过将大量机器数据和消费数据组合提供趋势分析。在电力行业,数据湖能够运行多个数据模型,评估安装节能设备的影响,以及数月后降低能耗带来的潜在影响。
Teradata天睿公司旗下Think Big公司创始人兼总裁Ron Bodkin表示:“数据湖实施的挑战巨大,这也成为帮助我们获得快速发展的原因:我们应邀帮助企业处理因各种原因而停滞的困难且昂贵的数据湖项目,为不同的情形定制数据湖设计模式方法。这些模式以及相关软件框架是强大且可靠的价值加速器。遗憾的是,很多企业很难发现大数据的雷区,我们协助客户摆脱危机,帮助企业、IT和数据科学家完成数据湖的规划、实施并获益,产生巨大的商业价值。当客户获得实践经验时,他们应该并愿意去创建数据湖。”
自创立伊始,Think Big就一直坚持技术和平台中立的原则,专注于通过Apache™ Hadoop®、Apache Spark™和 NoSQL等开源技术产生实际价值。Think Big 提供数种数据湖设计模式服务:针对刚开始数据湖项目或者寻求最佳实践咨询的团队的数据湖基础(Data Lake Foundation);针对寻求数据湖最佳实践和技术选择的企业的数据湖架构(Data Lake Architecture);以及针对分析周期执行中数据准备的数据湖分析(Data Lake Analytics)等。
Think Big已经帮助大量行业领导企业和创新公司建立数据湖,并提供Hadoop和大数据部署的工程服务,并拥有典型的客户案例,如西部数据硬盘旗下HGST公司、一家全球最大的金融服务商、领先的半导体制造商、领先的计算机存储和数据管理公司、著名的体育用品服装制造商,以及全球著名的软饮料生产商等。
Teradata还提供多种产品和技术,强化数据湖环境中的应用。包括:通过智能、自助服务软件解决方案简化数据湖中流数据(streaming data)的Teradata Listener;低成本的数据存储选项Teradata Appliance for Hadoop;提供流行的SQL-on-Hadoop架构的Presto;以及被称为管道控制器(Pipeline Controller)和缓冲服务器(Buffer Server)等知识产权的数据湖加速器,能够将数据高效地从本地服务器移动到Hadoop上。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。