收集数据后,在批处理模式数据集市下聚集和查询数据,以获取商业智能,这是实际应用大数据及分析的主要方式。它还有助于为新兴国家的人们确保有一个公平的竞争环境,为他们节省时间,并且迅速深入了解数据查询情况。
Springg就是个例子,荷兰的这家农业软件公司在与世界各地的农民合作。由于发展中国家缺乏基础设施,又认识到这些国家的农民需要与发达国家的农民那样同样可以访问农业信息,Springg想要找到一种方法,可以从田间获取宝贵数据,这些数据经评估后,可以将宝贵的信息迅速返回给较偏远地区的农民。
Talend公司专门提供Springg使用的大数据集成软件,首席营销官(CMO)阿什利·斯特拉普(Ashley Stirrup)说:“对于农民来说,采取土壤样本很重要,那样你就能更清楚地了解土地的特性,可以施什么类型的肥料,以便作物有最高产量。”
在以往,田地土壤样本在当地采取后,送到远在几百英里、乃至几千英里之外的实验室进行分析。
斯特拉普说:“Springg想要做的就是,在肯尼亚建立可以利用物联网技术的移动测试中心。”通过使用移动测试中心,Springg就能够借助传感器收集当地的土壤数据,然后在现场进行土壤分析,那样当地农民立即就能了解土壤情况以及最适合作物的肥料。土壤数据直接在田间加以收集和分析。然后发送到集中式数据库,可以在更综合、更全面的环境下进一步分析数据。
斯特拉普特别指出:“对于当地农民来说,这个过程极为高效,它将实验室分析土壤的速度加快了五倍。在欠发达地区,结果准确性和成本至关重要。这关系到一户家庭能否自给自足或者孩子能否上学。”
想把本地数据收集和分析之间的所有点联系起来,然后将数据发送到远地更庞大的数据资料库,这就需要形形色色的技术,从无线通信、移动电话,到可以处理不同国家电信环境的灵活的通讯协议,不一而足。斯特拉普说:“我们自己的数据工具应用于这种使用场合,我们想要一种解决方案可以处理任何类型的移动设备,并可以根据需要支持简单的通信协议。”
在当地的游击式田间应用程序(比如借助物联网传感器现场收集数据)中,还要确保数据准备和传输具有灵活性,那样可以捕获、分析、最终利用数据。
斯特拉普说:“有了这一种方法,你可以调入从世界各地的传感器收集而来的数据。然后,你可以在现场实时或近实时分析该数据,从数据立即获得当地结果。”
之后,数据从世界各地的多个收集点收集而来,然后发送到集中式数据资料库,数据可以改而用于众多用途。
斯特拉普说:“进一步利用这种农业数据的一种方法就是应用于金融市场。当一个系统能够分析并生成从世界各地的农业收集点收集而来的宝贵信息,许多公司就能更深入地了解当前的作物产量与历史趋势相比如何,天气状况对收成起到了怎样的影响,对大宗商品价格可能会有什么样的影响。”
使用这种“田间”的游击式数据收集和分析,立即将结果返回给当地农民,随后一路发送到大型数据资料库,然后数据进行进一步的分析,用于各大金融市场的趋势建模和决策,这种使用仍处于初期阶段,不过对于一种从宏观和微观两方面都可加以分析的数据模式而言,结果大有希望。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。