组织可能已经成功在业务中采用商业智能或分析实践。但获得大数据的成功需要不同的方法。
如果组织想投资大数据功能,那么可能会问自己,谁应该在大数据团队,以及这个团队首先工作的项目应该是什么?如何具有将团队组合在一起的能力来解决大问题?
组织可能会发现自己遇到了这些类型的问题,无论他们是从大数据开始,还是已经有项目正在进行中。行业专家Tamara Dull和Anne Buff建议组织在想要成功获取大数据的同时,需要围绕对组织的大数据能力和人员配置进行思考。
他们应该知道自己一直在思考如何在多年的大数据项目中取得成功。
Anne Buff是商业智能、数据挖掘与统计分析的领先软件提供商SAS公司最佳实践的业务解决方案经理和思想领袖。Tamara Dull是SAS公司最佳实践新兴技术总监。Buff和Dull介绍了组织如何解决在组合大数据业务时出现的诸多困难,同时他们还将在Interop ITX的会议中分享解决这个问题的办法,旨在帮助任何人正在开始或在大数据项目中间的组织。
“大数据不是新事物,”Dull说,“数十年来,我们已经有了很多数据,而且已经在处理这些技术了。所有这些技术都在开发中,其中很多都是开源的,它们能够实现能力混合和匹配我们所有的数据,组织可以获取社交媒体数据,并将其与您其CRM数据进行混合,或与其与销售记录进行混合。
Dull说,“这不是人工智能2.0,这并不一样。”Buff表示,这些努力不会取代组织的人工智能和分析程序。
组织在大数据开始时遇到的一些问题是导致这些项目取得成功的因素,而这与帮助人们通过商业智能取得成功的因素不同。商业智能和分析实践经常被安置在卓越中心。但组织也许并不想要或需要一个伟大的数据中心,也许只是需要一辆公共汽车。
组织的想法是,需要在每个项目的大数据公共汽车上使用不同的人员。使用这些公共汽车,组织可以在需要他们的项目时加载这些人员。他们只需要乘坐,只要你需要他们的项目。在项目结束后,小组下车,公共汽车现在准备好迎接下一个项目和下一个团队成员。
组织建立的成功大数据团队真的是为每个项目创建的特别小组。并非所有成员都在整个项目中。此外,会员也可能会从一个项目转向另一个项目。
当然,组织需要一定的角色。例如,组织总是需要一个利益相关者或执行发起人。但一个项目的利益相关者或执行发起人可能是首席营销官,而下一个项目可能要求是首席技术官或首席信息官成为利益相关者或执行发起人。这一切都取决于项目是什么。这是公共汽车的另一个重要方面。
在决定谁来加入任何给定项目的公共汽车之前,组织必须询问自己其正在追求业务项目的目标,然后如何实现该计划。只有这样,才应该问公车上需要什么成员。
“根据当前项目的范围,正在运行大数据团队将要转移的项目是什么,”Dull说,“这不是一次完成的事情,组织建立其大数据团队,每次在为组织追求不同的机会时,其公共汽车上的人员都会改变。”
Dull说,这个方法比较敏捷,它要求组织的团队根据项目改变。反过来,这也意味着团队也将是员工,自由职业者,承包商和外部服务人员的组合。
一些功能甚至整个项目可能会外包,这取决于项目。“大数据项目的本质就是有些会消亡,而其他人将会走得更远。”Buff说。这就是为什么创建一个架构,使大数据实践更加灵活的至关重要的原因。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。