为了让科学家更好地访问美国国家航空航天局(NASA)所收集的大量科学数据,NASA开发了一个科学发现引擎,利用生成式AI来提供上下文结果。
Kaylin Bugbee,NASA数据科学家
当你生成和收集的数据和NASA一样多的时候,为研究项目找到恰当的数据集就可能变成了一个问题。
NASA拥有7个运营中心、9个研究设施和18000多名员工,不断生成大量的数据并保存在30多个科学数据存储库中,涵盖了5个主题领域——天体物理学、太阳物理学、生物科学、物理科学、地球科学和行星科学。总体而言,NASA拥有128个数据源的88000多个数据集和715000份文档。到2025年,NASA的地球科学数据预计将达到250 PB。在如此复杂的情况下,科学家需要的不仅仅是领域专业知识才能驾驭这一切。
美国阿拉巴马州亨茨维尔马歇尔太空飞行中心的NASA数据科学家Kaylin Bugbee表示:“这就要求研究人员知道要访问哪个存储库以及这个存储库包含哪些内容,你必须具备科学素养和数据素养。”
2019年,NASA科学任务理事会(SMD)发布了一份基于对科学家一系列采访的报告,报告明确指出,这些科学家需要集中式的搜索能力来帮助他们找到所需的数据。SMD的使命是与美国科学界进行合作,为科学研究提供赞助,利用飞机、气球和航天项目对地球轨道、太阳系及其他地区进行调查。SMD认识到,让科学家和研究人员能够访问这些数据是至关重要的,因此根据该报告制定了开源科学计划(Open Source Science Initiative,OSSI),致力于让这份公共资助的科学研究是透明、包容、可访问和可重复的。OSSI的使命是:致力于在科学过程中尽早开放共享软件、数据和知识(包括算法、论文、文档和辅助信息)。
Bugbee说:“它确实是来自科学家和科学界的,也符合我们更广泛的SMD优先事项,即实现跨学科的科学,从中产生新的发现。”
为了促进这一使命,NASA现在正在转向使用神经网络和生成式AI,让海量数据对于科学家们来说都是触手可及的。
恢复秩序
OSSI的一个关键要素是科学发现引擎(Science Discovery Engine,SDE),这是NASA所有开放科学数据和信息的集中搜索和发现功能,由Sinequa的企业搜索平台提供支持。
Bugbee说:“在SDE创建之前,你无法在其他任何地方搜索到我们的开放数据和文档,现在它成为我们开放科学数据的一项搜索功能。”
总部位于纽约的Sinequa公司成立于二十多年前,以语义搜索引擎起家,专注于利用AI和大型语言模型来提供上下文搜索信息。Sinequa将微软的Azure OpenAI服务与自己的神经搜索功能进行集成,为该平台提供动力。
具体来说,Sinequa的神经搜索功能结合使用关键字和向量搜索来发现信息,而GPT将收集到的信息总结为可快速消化和可重用的格式,它还允许科学家使用自然语言提出更深层次的问题并完善搜索或响应。SDE可以理解近9000个不同的科学术语,随着AI的学习这个数字预计还会进一步增加。
Bugbee和她的跨学科团队中,有具备数据管理和信息学专业知识的科学家、开发人员、AI和机器学习专家,他们和利益相关者密切合作以了解他们的需求,并与NASA的CIO办公室以及Sinequa打造了PoC。
她解释说:“他们帮助我们构建了我们需要的环境,我们必须拥有开放的能力,因此我们有一些特殊的架构需求。”
Bugbee表示,她的团队在启动和运行过程中遇到的最大挑战之一,就是内容在NASA生态系统中的分散程度。她的团队花了大约一年的时间试图了解信息格局、数据和元数据模式。
“所有真正为数据带来丰富性的上下文信息——比如代码和GitHub,或者描述数据如何开发的算法文档——这类内容分布在许多网页上,我们一直在努力找出并确定所有这些东西所在的位置,”她说。
为起飞做好准备
Bugbee对数据管理和数据管理并不陌生。她在致力于提高Data.gov和奥巴马总统的气候数据倡议的元数据质量的领域中崭露头角。但在SDE的工作确实让人们认识到良好管理工作流程的重要性:有原则和受控的数据创建、维护和管理的流程。
“如果我能回到过去,我就会从一开始就内置一个更强大的工作流程。我们一开始就使用了开箱即用的方法,并且在一段时间内发挥了作用,但为了真正获得我们想要的结果,我们需要对工作流程进行规划。”
虽然SDE仍处于测试阶段,但Bugbee表示,她的团队迄今为止已经收到科学家的大量积极反馈,计划在今年晚些时候提供一个更全面的操作系统。现在她的团队已经打造了一个新的用户界面,允许用户在开始搜索之前按主题进行过滤。
好文章,需要你的鼓励
马来西亚,东南亚第二大汽车市场,长期以来被日韩汽车品牌占据主导地位。近年来,随着电动汽车的兴起,中国品牌比亚迪迅速崛起,占据了马来西亚电动汽车市场近 80% 的份额。面对这一局面,马来西亚政府将目光投向了本土汽车品牌 Proton 和 Perodua。
微软推出了一个名为AutoGen Studio的开源界面。该界面可以通过设置Python API,以及简单的拖拽页面操作,从而无需编写代码,即可
NVIDIA Grace Hopper 超级芯片架构将 NVIDIA Hopper GPU 的开创性性能与 NVIDIA Grace CPU 的多功能性结合在一起,在单个超级芯片