士卓曼集团北美数据和技术总监Iyengar表示:“我的愿景是,我可以为我的企业提供管理数据和自行运行数据的钥匙,而不是让数据和技术团队处于中心位置并帮助他们走出这个境地。”
这样做将是不小的壮举。这家总部位于瑞士巴塞尔的企业在全球100多个国家或者地区开展业务,拥有PB级的数据,其中包括高度结构化的客户数据、有关治疗和实验室请求的数据、运营数据、以及不断增长的海量非结构化数据,尤其是成像数据。例如,士卓曼集团的牙齿矫正业务大量地使用了图像处理,以至于每个月非结构化数据的增加速度在20%到25%。
成像技术的进步让士卓曼集团有机会为客户提供新的功能,例如,成像数据可用于向患者展示矫正器的外观随时间会发生的改变。
士卓曼集团北美数据和技术总监Iyengar
Iyengar说:“这很有力地帮助我们的供应商售卖他们的服务,同时也从患者那里获得更高的NPS [净推荐值]。”他相信,人工智能将在士卓曼集团的图像处理和实验室治疗业务中发挥关键作用,因此,他们有动力把机器学习作为一项服务提供给数据和技术团队的内部客户。
“他们所要做的就是建立他们自己的模型,然后运行起来,”他说。
但为了通过机器学习和人工智能增强各项业务,Iyengar的团队首先必须打破组织内的数据孤岛,转变公司的数据运营模式。
他说:“数字化是我们数据之旅中投下的第一个赌注。”
推介数据转型的价值
Iyengar和他的团队用18个月的时间开始了为期三到五年的旅程,从构建数据层开始——将ERP、CRM和遗留数据库等数据源集中到结构化数据的数据仓库和非结构化数据的数据湖中。
这个步骤主要是由开发人员和数据架构师执行的,建立了数据治理和数据集成。现在,这支团队的信息架构师和业务分析师共同负责语义层,将数据仓库和数据湖中的数据提供给数据集市,包括财务集市、销售集市、供应链集市和市场集市,下一步是把机器学习和人工智能管道构建到可以支持预测和规范分析的信息传递层中。
他说:“随着信息层的成熟,从这里就能开始看到机器学习和人工智能的一些萌芽。”他补充说,虽然在2021年的时候数据转型是他的一个迫切需求,但他想要一个更有吸引力的愿景来说服董事会和商界领袖解决这个问题。
因此,他用防御面和进攻面来比喻他的数据策略。防御面包括数据管理的传统元素,例如数据治理和数据质量,进攻面则是指人工智能和高级分析领域,其作用不仅仅是获得洞察力和优化业务。
“进攻面是如何产生收入,从我们收集来的历史数据中获得洞察,用于预测即将到来的趋势。在进攻面,我们获得的大部分数据都是非结构化的,我们希望确保这些数据对业务领导者是有意义的,帮助他们协调和丰富这些数据,从而更有效地服务于客户,让客户更稳健、更顺畅地利用我们的服务。”
毫不意外,正是这具有进攻性的一面,让士卓曼集团的董事会认可了Iyengar的转型计划。
他说:“当提出以客户为中心和数字化转型以及数据转型的时候,我认为,这引起了他们的共鸣。”
为未来做好准备
Iyengar的团队通过利用案例的方法取得了成功,这和士卓曼集团的核心业务几乎没有什么不同。“这和我们向患者展示治疗前和治疗后图像的方法几乎是一样的。”
该团队要求公司领导者选择一些以客户为中心的指标,来证明使用数据创新推动业务的成果,其中一个目标就是降低客户流失率。该团队首先将客户流失倾向分为两个值:一个用于保留现有客户,一个用于获取新客户,使用典型的客户生命周期价值并分析购买模式,为营销团队和销售团队提供可用于推动战略的洞察。
他说,采用这种方法在内部推介数字化转型,使这项工作变得轻松多了。“我们看到所有业务都批准投入大量资金来支持这项计划。”
与此同时,随着团队开始构建机器学习和人工智能能力,数据与技术团队自身的转型也势在必行了。
Iyengar说:“从传统角度来看,我们固有的技能组合并不适合其中机器学习和人工智能的部分。你需要的是统计学家和数学家,而不是程序员和编码员,对吧?因此,我们也一直从文化和技能的角度做自我转型,这本身是需要时间的。我们有一条学习曲线,可以在我们内部构建起所需的技能组合。”
Iyengar说:“我的团队中有很多传统的ETL技能,现在缺乏的是机器学习/人工智能技能,在这方面,合作伙伴为我们提供了帮助。”
他说,最终,这些变化将改变数据与技术团队与业务交互的方式。目前,他们是集中式“中心辐射”的运作模式,但他表示,在他的团队中聘用统计学家和数学家将无法实现扩展。相反,他真正想要的是在三到五年内,将团队融入到更接近业务线的团队中,这样业务就可以自己运行模型。
“现在,我们就像是以每小时100英里的速度驾驶公交车,同时还要更换轮胎,尽管我为团队正在做的事情感到很自豪,但这无论如何都是不可扩展的。”
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。