至顶网CIO与应用频道 10月25日 编译:预测未来一直是个冒险的想法。所幸的是,预测分析技术的出现,让用户能够根据历史数据和分析技术(如统计建模和机器学习)预测未来结果,这使得预测结果和预期趋势比以前更加可靠了。
尽管如此,与任何新兴技术一样,预测分析可能很难充分发挥其潜力。让这一挑战更加复杂的是,由于策略不完善或者预测分析工具的滥用所导致的不准确或误导性结果,可能在几周、几个月甚至几年内都不会很明显。
预测分析有潜力彻底改变各种行业和各种运营方式,包括零售、制造、供应链、网络管理、金融服务和医疗保健。人工智能网络技术公司Mist Systems首席技术官、联合创始人Bob Friday表示:“深度学习和预测性人工智能分析将改变我们社会的各个阶段,可以与互联网和移动蜂窝技术带来的变革相提并论。”
以下这7个技巧可以帮助你的企业组织充分利用预测分析计划。
1、能够得到高质量、易于理解的数据
预测分析应用需要大量数据,并且依赖于通过反馈循环提供的信息来不断进行完善。“数据和预测分析相辅相成,”全球IT解决方案和服务提供商L&T Infotech首席数据和分析官Soumendra Mohanty这样表示。
了解输入预测分析模型的数据的类型是非常重要的。Eric Feigl-Ding是一位流行病学家、营养学家和健康经济学家,现任哈佛大学公共卫生学院访问学者。他说:“数据是哪种类型的?是每天收集的实时数据,例如Facebook和谷歌,还是难以访问的医疗记录数据?”为了准确预测,模型需要设计支持接收到的特定类型的数据。
只是简单地在计算资源上投入大量数据的预测性建模工作,是通常注定要失败的。“由于存在大量数据,其中大部分数据可能与特定问题是无关的,但在给定样本中似乎可能是相关的,”金融数据和软件公司FactSet投资组合管理和交易解决方案副总裁、研究主管Henri Waelbroeck这样解释说。“如果不了解产生数据的过程,那么基于偏见数据进行训练的模型可能从一开始就错了。”
2、注意模式
SAP高级分析产品经理Richard Mooney表示,每个人都对算法很着迷,但提供给算法的数据和算法本身一样都是很好的。“如果没有模式可寻,那么他们就不可能找到这样一种模式。大多数数据集都有隐藏的模式。”
模式通常以两种隐藏的方式:
- 模式存在于两列之间的关系中。例如,可以通过把即将发生的交易结束日期信息与关联的电子邮件打开率数据进行对比来发现模式。“如果交易即将结束,电子邮件的打开率应该会大幅增加,因为买方会有很多人阅读合同并审查合同,”Mooney说。
- 变量随时间变化的方式会显示出一定的模式。“在上面的示例中,即使你知道客户打开了200次电子邮件,还不如知道上周他们打开了175次邮件那么有用处。”
3、专注于可能带来积极投资回报率的、可管理的任务
纽约理工学院(NYIT)分析与商业智能主管Michael Urmeneta表示:“现在有一种诱惑,就是将机器学习算法应用于大量数据,以期获得洞察力。”他说,这种方法的问题在于,这就像试图同时治愈所有类型的癌症一样。“问题太大,数据太乱,没有足够的资金,没有足够的支持,赢得胜利是不可能的,” Urmeneta解释说
当任务集中时,成功的可能性要大得多。“如果出现了问题,我们可以找到解决这一错综复杂问题的专家。我们可能会有更清晰、更好理解的数据。”
4、用正确的方法完成工作
好消息是,你几乎有无数方式和方法来生成准确的预测分析。然而,这也恰恰是个坏消息。“每天都有一种新的、热门的分析方法,人们很容易对使用新方法感到兴奋,”芝加哥大学National Opinion Research Center(NORC)行为、经济分析和决策实践主管Angela Fontes表示。“但是,根据我的经验,最成功的项目往往是那些真正深入思考分析所需结果、引导他们所选方法论的项目——即使最合适的方法不是最性感、最新的方法。”
“用户必须谨慎选择适合他们需求的方法,”罗切斯特理工学院副教授兼计算机工程系主任Shanchieh Jay Yang建议道。“有一种有效且可解释的技术,利用顺序、时间数据的统计特性,在未来进行可能的推广。”
5、构建具有精确定义目标的模型
这一点似乎是显而易见的,但许多预测分析项目的目标是建立一个宏伟的模型,而没有明确的计划,明确最终的用途。“有很多宏伟的......模型从未在任何地方使用过,因为没有人知道如何使用这些信息来实现或提供价值,”汽车、保险和碰撞修理行业的SaaS提供商CCC Information Service产品管理高级副总裁Jason Verlen这样说。
Fontes表示认同。“使用恰当的工具肯定能确保我们从分析中获得理想的结果......因为这迫使我们要非常清楚我们的目标是什么。如果我们不清楚分析的目标是什么,那么我们不可能真正得到我们想要的东西。”
6、IT和相关业务部门之间建立密切的合作关系
业务和技术部门建立牢固的合作伙伴关系,这一点至关重要。“这样你就可以了解新技术如何应对业务挑战,或者改善现有业务环境,”客户体验技术提供商Genesys的人工智能产品管理副总裁Paul Lasserre说。然后,一旦设置了目标,就在有限范围的应用中测试模型,以确定该解决方案是否实际提供了价值。
7、不要被设计不良的模型所误导
模型是由人设计的,因此通常会存在潜伏的瑕疵。错误的模型、使用不当数据构建的模型很容易产生误导,或者在极端情况下,会产生完全错误的预测。
例如,选择偏差(没有实现适当的随机化)可能混淆预测结果。例如,在假设的减肥研究中,可能有50%的参与者选择放弃随访体重测量。然而,放弃的人的体重轨迹与坚持的人不同。这使得分析变得很复杂,因为在这样的研究中,坚持该计划中的人通常是那些实际在减肥的人。另一方面,戒烟者通常是体重减轻很少或者没有的个体。因此,虽然体重减轻可能是公认的具有因果关系和预测性的,但在有限数据库中,退出率为50%,实际的最终结果可能是隐藏起来的,Feigl-Ding报告这样表示。
要点
商业智能和分析软件开发商GoodData数据科学高级主管Arvin Hsu表示:“企业正在面对越来越大的痛苦,学习预测分析也许不是你能驾驭的问题。然而,强大的预测分析对业务效率、收入和产品性能的影响是值得我们花时间、精力和资源去做这件事情的。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。