总部位于渥太华的加拿大汽车协会(CAA)成立于1913年,由八个自治区的俱乐部组成。各俱乐部分别提供一系列服务,包括路边援助与休闲旅行服务、保险服务以及会员折扣计划等等。其技术部分的核心人物,正是CAA Club集团的首席信息官Kin Lee-Yow。
Kin坦言,CAA的使命就是尽一切努力保障会员安全。在11年前加入CAA时,他就意识到这是一个由有着不同需求、不同优先事项的独立实体组成的混合体——其定位远超单纯的汽车协会概念。
“CAA是一个联合会,在加拿大拥有八大不同实体,因此各方间的合作方式也令人大开眼界。我们不是要与一个组织合作,而是要在不同组织间能力配合,使之成为一个整体。从技术的角度看,我们一直在寻求让生活变得更简单的方法,让成员们都知道如何达成最终结果。”
为了使这些实体能够协调匹配,团队之间的沟通效果就成了判断运作状态的晴雨表。
“我们需要与很多人交互,需要向他们学习并与他们分享知识。在业务体系中,我们的路边援助部分就是帮助意外滞留的会员,帮助他们解决安全问题。因此,他们滞留在路边的时间越长,所面临的风险也就越高。所以客观来看,我们的核心目标就是如何更快抵达目的地、如何近可能与会员站在一起。”
于是在2017年,Kin同CAA首席执行官Jay Woo一起勾勒出方案,计划打造一套机器学习系统,帮助预测下一起事件可能在哪里发生。而且对Kin来说,知识渊博的领导者必须能够充分把握自己决定采用的每一项技术。
“技术的一大特点在于,人们总以为只要拿来能用,就可以解决一切问题。但这实际是个天大的误解。整个体系中涉及工具、人员和流程,所以我们在部署技术的同时还得跟人们充分交流,引导他们并让他们理解当前发生的一切。在完成之后,我们开始改变现有流程。在实施了一年之后,我们发现平均到达时间(ATA)缩短了10%,净推荐值提高了12%。现在会员们的满意度更高了。”
就这个话题,CIO.com编辑采访了Kin,探讨如何将尊重作为组织文化的基石,以及如何发掘团队的全部潜力。以下是Kin观点的精简概括。
关于团队内部的文化和协作:在CAA,IT部门设计出了我们据说的五大构建块:尊重、学习、协作、创新和承诺,这也代表着我们关注的优先事项。这里就先从尊重开始。如果我不尊重我的同事,如果人们也不尊重我,那任何工作都无法推进。在解决尊重的问题之前,讨论任何其他构建块都是纯粹浪费时间。而在相互达成尊重之后,才能进入学习的阶段。我一直乐于学习,我认为最好的学习方式就是分享或传授自己学到的知识。因为你教授的越多,自己对知识的把握就越牢固。接下来是协作,其定义非常简单,就是帮助合作伙伴做成双方想做的事。如果无法协作,那结果就会向着竞争、或者说对抗延伸。所以对我来说,合作就是如何让彼此双方都能发挥更大的作用和能量。之后是创新。所谓创新,就是为同一目标找到不同的实现方法。最后一点是承诺,简言之就是知行合一、说到做到。
关于生成式AI:AI是个非常有趣的话题。对我来说,AI代表着辅助型智能。其实质在于我们要如何提供帮助,并让事情变得更好,所以AI夺走工作岗位之类并不是重点。对于ChatGPT这样的AI技术,我觉得其性质更像是计算器。例如,假设有人告诉你需要核算一份表格,那没有计算器的时候可就麻烦了。但有了计算器的帮助,我们可以快速处理。但计算器上也有很多我们可能尚不熟稔的算法,贸然使用也是很可怕的。所以最重要的应该是搞清计算器到底能做什么,然后把它用通、用好。ChatGPT也是这样,我得搞清楚它能做什么、能帮我什么。但如果只是从表面上理解并应用,那结果就不可控了。一定要先理解、再动手,这一点非常重要。
关于沟通:如果做不到相互沟通和理解,那结果几乎必然是灾难性的。我觉得每个人的出发点可能都是好的,但往往最终却抱有不同的观点,这就是因为没能充分沟通或理解目标。任何一个看似简单的问题,都要提前做好澄清。我宁愿刚开始大家闹得有点僵,也希望消除误解和猜测,否则就会把大把时间和精力浪费在根本不明确的工作上。这些都是沟通的意义所在。多听多问永远没有坏处,大家没有冲突,只是在澄清自己对事物的理解。因此作为一名领导者,我们必须确保自己的意见在团队中得到充分理解。
关于持续学习:人就应该不断学习。在刚刚开启自己的职业生涯时,我就一直在主动积累新知识,这是我们的力量源泉。知识就是力量,此言非虚。所以我们掌握的知识越多,工作起来就越是得心应手。但任何事物都有反面,一味在某个方向走得太深也会让自己表现出保守化倾向,也就是过于擅长特定某类工作、对其他的则完全不了解。如果我们总是持续深耕某一个方向时,那雇主也会觉得你就擅长这方面,想不到要给你更多机会;但如果你能多展示自己的知识储备和跨专业能力,他们就会感受到你的分享热情,想要为你提供更加广大的舞台。就是这样,我们分享出去的知识越多,对个人和职业生涯的反哺效果就越强大。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。