至顶网CIO与应用频道 11月08日 人物访谈(文/王聪彬):数据分析技术可谓一日千里,数据使用也在随着时间改变。企业最早的IT建设大多是分散的,所以产生和收集的数据也就形成了一个个孤岛,于是企业开始进行数据集成,建立数据仓库,但发展到云计算环境,不同的云平台又造成了新型的孤岛。
Teradata一直兼顾架构的开放性、技术的先进性和产品的成熟性,构建可持续发展的大数据支持体系,保证用户价值的最大化,实现解决实际业务问题的终极目标。并且刚刚发布的Teradata Vantage则可以实现一劳永逸,帮助客户在不同环境下做同样的分析。
变化与增长
一年用户执行超过11万亿次查询,每年Teradata的解决方案处理840EB数据。Teradata天睿公司首席运营官Oliver Ratzesberger在2018 Teradata Analytics Universe峰会开场展示了几个数字。
现场的客户也对这些数字表示惊叹,我也在当天问了Teradata天睿公司总裁兼首席执行官Vic Lund对这些数字是否满意,他的回答是:“是,但也不是,我们需要不断的改变战略来满足客户、增加收入、扩展市场、实现创新”。
Teradata天睿公司总裁兼首席执行官Vic Lund
事实上,从之前的“卖盒子”,也就是数据库、数据仓库一体机,到开放软件部署限制,帮助客户找到数据中的价值,Teradata一直在不断变化。现在的Teradata已经能够“无处不在,任意自由”地进行数据分析。
“在这个过程中我们一直在推动数据分析,尤其在获取数据和分析输出上帮助客户获得回报,而且随着数据和客户群的增长,Teradata让更多的客户更容易地应用这两件事。” Vic Lund对于现在的战略充满信心,“Teradata要参与数据的增长,从而获得更大的收益。”
而且Teradata正在推动投资、改变战略。预计在未来三年,Teradata的收入、利润率、现金流都将有所改善。
与客户一起
对于客户而言,我们需要弄清他们有什么数据,再帮助他们开始提升以实现最终目标,这是一个漫长的过程。
“Teradata Vantage可以让客户不用一次性支付所有费用,这种商业模式的转换也给客户更大的接受度。”Vic Lund说,在新模式中,Teradata与客户不再仅仅是一项交易,而是一起完成一个旅程,这是推动持续关系的战略核心。
从2016年开始,Teradata就实现Teradata数据库在任何平台的交付,包括本地、私有云、托管云、公有云。尤其在云模式下,这一变化让企业的部署变得更加灵活,而且通过软件许可的可移植在不同环境进行迁移。
当然在Vic Lund看来,企业大规模使用云服务可能还需要4-5年,根据采购周期,需要等到客户一次性投入后的下一次购买为止,才会大量尝试使用云服务。
对于中国这一庞大而且特殊的市场,Teradata拥有包括金融、通信、交通等领域的大量客户。Vic Lund在今年5月曾到访中国与客户进行交流,虽然根据法规要求中国企业的数据需要在本地保存,但可以基于中国对数据需求的特点从服务的角度创造机会。
扩展的价值
谈大数据必定离不开人工智能,尤其在数据量和算力蓬勃发展的今天,人工智能在分析领域占据了越来越重要的位置,企业需要了解人工智能能为你创造什么价值。
人工智能要实现真正的商业成果,像银行可以利用人工智能进行欺诈检测,同时人工智能也是自动驾驶重要的部分。Teradata天睿公司首席技术官Stephen Brobst指出,企业要超越数据管理扩展到深度分析,因为机器学习、深度学习对于Teradata的技术发展至关重要。
Teradata天睿公司首席技术官Stephen Brobst
当然在分析之前,数据一定要是干净清洁的,这样才能消除偏差,训练出正确的结果。Teradata会告诉客户如何收集并分析数据,建立良好的数据科学。
对于企业部署人工智能的挑战,Stephen Brobst之前曾提到大规模部署问题。当这个问题再次抛给他时,他谈到了Teradata越来越强的扩展能力,例如在深度学习中扩展计算模型,甚至使用GPU。“我们可以用4个GPU来进行实时分析,而且每个GPD都有四千个计算单元。”他还解释说,就像大多数商店安装摄像机防止入店行窃,通过人工智能可以识别顾客的身份,并通过购物行为进行分析。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。