美国国家橄榄球联盟超级碗大赛刚刚落下帷幕,辛辛那提孟加拉虎队顶着巨大压力一路杀进决赛对战素有“宇宙羊”称号的夺冠热门球队洛杉矶公羊队。精彩的赛事让棒约翰(Papa Johns)这样的外卖食品供应商在超级碗期间也面临严峻的挑战。
就像看电影要吃爆米花一样,看超级碗就一定要点披萨。这家在北美经营着3300家餐厅的外卖披萨巨头,在超级碗这个美国收视率最高的体育赛事期间的订单量无疑将收到大幅增长。
这将是一项压力巨大的任务,但是基于公司为应对疫情期间食品配送需求增加而展开的IT工作,棒约翰的IT主管对超级碗期间实现预期业绩充满信息——特别是棒约翰采用了Google Cloud Platform堆栈,以及Splunk提供的云分析工具,后者在放置故障方面非常有效。
棒约翰高级副总裁、首席洞察力和技术官Justin Falciola表示,尽管超级碗比赛十分重要,但也不会大出几个数量级。这其中仍然涉及到数百万美金,所以工作人员每个小时都会像老鹰一样观察系统中的这些微小变化和异常情况。
对于棒约翰来说,Splunk扮演着两个角色:一是安全运营,另一个是为Falciola和他的团队提供大量可观察性的非结构化数据监控,这种数据会在特定的大业务窗口期涌入棒约翰的多个数据存储库。
棒约翰每日高峰期订单集中在三小时内,因此实时响应门店和客户的需求是至关重要的。通过使用Splunk的软件,棒约翰不必以特定格式对所有系统进行编码来发出数据,只查看基础设施中不同种类技术和不同应用所产生的数据即可。
Splunk可以提供类似于针对计算机日志文件的谷歌搜索,客户包括Zoom、英特尔、可口可乐、康卡斯特、凯悦和空中客车等大型企业,让企业客户能够实时地监控所有机器数据,包括结构化数据和非结构化数据。例如,该平台将棒约翰的所有业务数据流传输到一个索引中,客户可以通过一种定制的仪表板中搜索该索引,而且这个仪表板可监控所有类型的数据。
“Splunk在运营分析领域的确有一技之长。”Falciola表示。
秘密武器
通常,系统必须根据要搜索的模式编写数据,但是Splunk的搜索处理语言打破了这一要求,让棒约翰这样的企业能够通过仪表板进行监控,例如,监控披萨在烤箱中烘烤的时间、切割和打包披萨需要多长时间、需要原料的数量、司机取货和送货时间、送货地区的天气条件等。
同时,Splunk与Google Cloud Platform结合使用,可让Falciola和他的团队更深入地了解整个业务流程。他表示,Splunk有助于深入了解整个电子商务的环境,系统可以实时查看在某位置的某项指标——例如位置准确性——可能会出现降低;映射方面可能存在问题,可能是发布的新代码或者业务配置出错了,也可能是因为发生了暴风雪。
Falciola表示,棒约翰也采用了微软Azure,而且只有少数几台服务器还没有100%上云,Splunk帮助他们能够从日常业务中发生潜在的异常问题。
他说:“正是这种快速发现异常或者超出正常范围的能力,对我们产生了很大的影响。”
实时洞察
棒约翰采用Splunk只是一个缩影,有越来越多的企业在他们的云基础设施中增加了实时监控工具来满足客户不断增长的需求。
Futurum分析师Daniel Newman表示,云技术的采用率正在显著提高,以提供更高的实时可观察性和对应用性能的监控。随着各种规模的企业越来越依赖口碑以及客户体验来保障业务运营和企业发展,错误范围需要越来越小。毫无疑问,眼下和未来企业将需要这种技术来克服这些挑战。
棒约翰的食品配送业务增长非常快,每个周末都会产生大量数据。尽管如此,像超级碗这样的重大赛事,还是需要在每个门店和内部IT部门进行大量的提前规划,这就需要进行大量的混乱测试才能真正做好准备。
棒约翰与Splunk的合作让Falciola和他的IT团队更有信心,让公司通过连接内部所有后端和前端系统,解决质量控制和业务连续性问题,实现Falciola所谓的“真实用户监控”。
他表示,这解决了棒约翰在基础设施中数百个应用的运营问题,使IT团队能够以更有效的方式操作平台,并更快地解决瓶颈问题。
好文章,需要你的鼓励
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测试表明,该方法不仅有效降低了目标概念的准确率(低至7.7%),还保持了模型在无关领域的高性能,并显著提高了对"重新学习"的抵抗力。这一突破为AI系统的安全部署和合规使用提供了新的可能性。