至顶网CIO与应用频道 08月15日 评论分析(文/王聪彬):几十年前,企业鲜有提及数据分析,也不太了解数据的价值。近十年每一个企业都正在成为一个数据公司,利用数据分析指导企业发展。
企业也逐渐开始认识到数据是非常复杂的,不论是从技术角度还是业务角度。而且数据分析一定要真正深入到企业各个领域,并思考如何带来更加有效的企业运营,最终将数据赋能给客户,让价值再次升华。
数据分析挑战体现在各个层面
大数据的概念对于大家已经并不陌生,但中国企业做的更多的一件事是数据收集,并没有真正将数据进行变现。当然数据收集是数据分析的第一步这无可厚非,企业要注意的是在收集阶段能够更加谨慎,了解收集哪些数据会对业务和管理产生效益。
就像零售行业的便利店为例,天气数据就是一个非常重要的数据,因为天气直接影响着便利店生意的好坏。
在数据使用的过程中企业也存在着这样或那样的挑战,Teradata看到数据规模和数据在各领域的应用是一个比较普遍问题,企业是否有足够的大数据来支撑在各个业务领域应用。
实时数据汇总就是美国西南航空遇到的最大挑战,美国西南航空营销解决方案总监Carole Elwell在做数据分析时,最头疼的就是做数据的整合,因为数据分散在大大小小不同的系统中,只有将数据集中才能完整的了解到客户的实际情况。
这也就是很多企业为什么要做数据治理的原因,再之后就是数据应用的挑战,因为各行各业都在转型,在面对管理和业务的各种需求时,数据的应用就要产生效果和价值。
这对于底层数据中心,数据分析也带来不小的挑战,Teradata 天睿公司国际集团业务拓展副总裁Mikael Bisgaard-Bohr在接触客户的过程中发现,企业大多了解数据可以带来哪些帮助,但如何找到一个可行的方案还是相对困难,所以就需要一个灵活的基础设施让公司各个层面都可以使用数据。
运营商的代表中国移动通信集团浙江有限公司,现在遇到的一个问题就是数据量已经大到很难在一个集群中把数据集中做运算,所以中国移动通信集团浙江有限公司大数据中心主任和信息技术部副总经理汤劲松尝试在开源体系做自主研发,解决海量数据的聚合问题。
数据分析必须回归到业务
数据分析可以直接提高企业市场份额、降低运营成本,最重要的一点是将数据分析和业务挂钩才能有真正的驱动力。
顶新集团其中一个业务场景就是卖便当,顶新国际集团便利、餐饮连锁事业幕僚长兼资讯长张起华发现每天都有大量的盒饭被废弃,所以通过数据分析研究不同地区提供哪种口味的菜品,像上海销售一些酸甜口味的菜品糖醋排骨,成都销售符合当地辣度的辣子鸡丁。
航班的准点是乘客最关心的问题,一般乘客对于航班延误都有一定的容忍度,但如果没有很好的及时的做出一些措施,很可能就会流失客户。美国西南航空将飞行信息、延误信息,放在客户层面进行分析,更好的进行营销和提出解决方案,提升客户满意度。
在业务上数据分析还能带来很多附加价值,这就意味数据分析要更加精准。顶新集团的目标是在客户进入便利店时,就能判断出他是否是会员,在结账时POS会提示营业员会员的喜好,进行一些其他推荐。
除了利用自身数据外,另一个提供增值价值的方式是异业合作,这也是企业在互联网时代的必备,当然这个过程需要大量的数据做支撑。
浙江移动通过异业合作为客户提供增值业务,像提醒客户所要去的景点人流量、通过位置信息提供不同场景下的优惠等,让客户获得更好的体验。顶新集团覆盖了零售的多种业态,通过地域的业态数据分析,了解刚需和高频业态,创立更多新鲜产业建立一个完整的生活圈。
在数据分析时,企业要看到的并不是数据本身,而是数据背后所代表的商业意义,Teradata则可以帮助客户把大数据做的更有价值。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。