虽然如今的数据与分析技术已经能够为决策提供坚实的信息指引与业绩优化方向,但对传统企业来说,高效运用这些技术却往往仍无比艰难。其中的问题,也许与这些企业的既有特性相关。
成熟的企业往往已经拥有几十年甚至是上百年的历史,业务部门与办事处覆盖世界各地,内部雇员多达数千。这类企业的信息系统也已经渗透至每一个角度,在不同的平台上实现不同目的。他们的业务流程与运营体系极为复杂,但往往都面对着两大共通的痛点——牢固而僵化的决策结构,以及根深蒂固的企业文化。
当然,传统企业的领导者与高管团队也听过不少建议,例如应该像亚马逊、Netflix或者Spotify那样灵活对待自己的业务。没错,这些伟大的公司已经建立起极为成功、令人钦佩的业务,而其模式与解决方案普遍都有着电子商务公司的特点,部分公司甚至在创立之初就考虑到了数据驱动需求。很明显,这种模式并不适合一家拥有百年历史的全球制造业公司。
根据观察,不少高管面对这类建议时往往相当无奈——传统企业在模式、文化、结构与系统层面与知名科技公司完全没有任何相似之处。换句话说,这类建议太过简单粗暴,根本没有落地实践的通道。数据与分析技术的使用就是个很典型的例子,如今的人工智能(AI)与机器学习也面临着类似的难题。
数据文化冲突
成熟企业的领导者需要首先理解数据文化的真正含义:这其实是一种期望、支持并鼓励员工们使用数据制定决策并优化业务流程的文化。面对任何新建议,我们都应该问一句“有数据和分析结论作为支持吗?”人们还必须有能力访问到自己需要的数据,企业还应鼓励大家展示自己的分析结果,包括其中不那么中听、甚至可能引发抵触的结果。
硅谷的不少初创公司就是在这样的前提与考量下建立的。然而,传统企业的组织结构与系统早就已经引入了某种形式的数据分析,如今只是需要通过AI预测分析进一步做出业务优化。我认识的一位高管就来自某家顶级数据驱动型初创公司,现在在一家大型消费品公司领导数据分析。回顾当初创业时曾经理所当然的商业实践、决策流程与系统方案,他只能用“文化冲突”来形容如今的新环境。
成熟的组织在数据使用方面往往呈现出支离破碎、孤立且狭隘的特性,信息共享也面临着根深蒂固的障碍。此外还有不少人为因素,数据可访问性与分析的推广将不可避免地提高业务透明度,给传统势力造成挑战并产生大量不受待见的洞察结论。如此一来,业务部门负责人等中层管理者越是积极推进数据驱动,越是会受到感觉自己受到挑战的高管们的打压。
例如,我的一位同事就讲述过为一家金融服务分析,确定需要关闭哪些零售分部的经历。在提出建议时,零售业务负责人反驳道“我是负责零售分部工作的,我不同意这些分析结论,我们也不会关闭任何分部。”
在另一家公司,分析主管也展示了如何优化广告媒体采购决策以提高宣传效率,并建议具体工作应该由分析部门接手。广告业务负责人对此当然反应消极,还造成了极为严重的信任乃至协作关系撕裂。
提升绩效
尽管存在种种挑战,但也有不少传统企业成功吸纳了数据与分析技术这波深厚“内力”。
与其粗暴复制硅谷的方法,传统企业更应该将数据与分析融合到自己的业务当中。下面来看几点建议:
要想利用AI与机器学习技术不断提高业务绩效,建立数据文化可谓势在必行。与其强迫自己模仿科技初创企业,传统公司不妨专注于期望、支持并鼓励内部员工,着力在文化、决策与组织层面逐步引入数据与分析技术。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。