至顶网CIO与CTO频道 04月02日 编译:有关COVID-19大流行的数据迅速被整合及剪辑,一众高科技厂商为业余流行病学及数据科学工作者打造了一些分析工具栈。
结果:新冠状病毒爆发的可视化极可能是史无前例的。
COVID-19爆发后不久就出现了第一个数据分析仪表板及整合工具。该仪表板(网址)由约翰·霍普金斯大学推出,目前已成为最常用的数据来源,仪表板整合了来自世界卫生组织、美国疾病预防控制中心、WHO、NHC、DXY、1point3acres、Worldometers.info、BNO、以及美国各州和国家政府卫生部门以及各地媒体报道的资料并对其进行了可视化处理。
霍普金斯大学还将数据放在GitHub上(https://github.com/CSSEGISandData/COVID-19 )供有兴趣的人下载。该仪表板于1月23日推出,到目前为止关于COVID-19的数据集可以说是成了最具可视化性的数据集。COVID-19数据集来自各种不同的源,如何为分析提供干净的数据就成了各家努力的目标。
以下列出各家在这方面所做的一部分工作
·Tableau用上霍普金斯大学的数据并发布了一个启动仪表板。 Tableau的主要贡献是将数据做处理后提供各种格式以及可视化模板。
·开源数据集也派上了用场。研究人士和大西洋(The Atlantic)网站的写手利用开源软件将各种数据源汇集在一起。
·GitHub上的数据集含新冠状病毒的一系列数据集,data.world和Kaggle也拥有一些数据集,Kaggle上有比赛、预测和可视化等等。
·Reddit的 Data is Beautiful 分版是可视化业余爱好者和数据科学家聚集的地方。 我们的世界数据网站拥有强大的COVID-19研究和数据一览。
·Esri将自己的映射和地理定位专业知识用于COVID-19跟踪。
·雪花(Snowflake)是个云数据平台,上面介绍过数据服务公司Starschema 推出的一个免费数据集,目标是成为COVID-19发病率和死亡率真相单一源。该数据集加入了相关的人口密度及地理定位信息。
·IBM将 COVID-19数据整合到天气频道应用程序里,将气象数据和当地新型冠状病毒事件融合在一起。IBM子公司通过该天气频道程序可以将相关的COVID-19数据发送给每月3亿个活跃用户。IBM可视化方面的工作和谷歌及微软在这方面的努力类似,目的是将COVID-19数据推送给大众。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。