NASA数据科学家：通过AI驱动的搜索加速科学发展

NASA开发科学发现引擎，利用生成式AI来提供上下文结果。

为了让科学家更好地访问美国国家航空航天局（NASA）所收集的大量科学数据，NASA开发了一个科学发现引擎，利用生成式AI来提供上下文结果。

Kaylin Bugbee，NASA数据科学家

当你生成和收集的数据和NASA一样多的时候，为研究项目找到恰当的数据集就可能变成了一个问题。

NASA拥有7个运营中心、9个研究设施和18000多名员工，不断生成大量的数据并保存在30多个科学数据存储库中，涵盖了5个主题领域——天体物理学、太阳物理学、生物科学、物理科学、地球科学和行星科学。总体而言，NASA拥有128个数据源的88000多个数据集和715000份文档。到2025年，NASA的地球科学数据预计将达到250 PB。在如此复杂的情况下，科学家需要的不仅仅是领域专业知识才能驾驭这一切。

美国阿拉巴马州亨茨维尔马歇尔太空飞行中心的NASA数据科学家Kaylin Bugbee表示：“这就要求研究人员知道要访问哪个存储库以及这个存储库包含哪些内容，你必须具备科学素养和数据素养。”

2019年，NASA科学任务理事会(SMD)发布了一份基于对科学家一系列采访的报告，报告明确指出，这些科学家需要集中式的搜索能力来帮助他们找到所需的数据。SMD的使命是与美国科学界进行合作，为科学研究提供赞助，利用飞机、气球和航天项目对地球轨道、太阳系及其他地区进行调查。SMD认识到，让科学家和研究人员能够访问这些数据是至关重要的，因此根据该报告制定了开源科学计划（Open Source Science Initiative，OSSI），致力于让这份公共资助的科学研究是透明、包容、可访问和可重复的。OSSI的使命是：致力于在科学过程中尽早开放共享软件、数据和知识（包括算法、论文、文档和辅助信息）。

Bugbee说：“它确实是来自科学家和科学界的，也符合我们更广泛的SMD优先事项，即实现跨学科的科学，从中产生新的发现。”

为了促进这一使命，NASA现在正在转向使用神经网络和生成式AI，让海量数据对于科学家们来说都是触手可及的。

恢复秩序

OSSI的一个关键要素是科学发现引擎（Science Discovery Engine，SDE），这是NASA所有开放科学数据和信息的集中搜索和发现功能，由Sinequa的企业搜索平台提供支持。

Bugbee说：“在SDE创建之前，你无法在其他任何地方搜索到我们的开放数据和文档，现在它成为我们开放科学数据的一项搜索功能。”

总部位于纽约的Sinequa公司成立于二十多年前，以语义搜索引擎起家，专注于利用AI和大型语言模型来提供上下文搜索信息。Sinequa将微软的Azure OpenAI服务与自己的神经搜索功能进行集成，为该平台提供动力。

具体来说，Sinequa的神经搜索功能结合使用关键字和向量搜索来发现信息，而GPT将收集到的信息总结为可快速消化和可重用的格式，它还允许科学家使用自然语言提出更深层次的问题并完善搜索或响应。SDE可以理解近9000个不同的科学术语，随着AI的学习这个数字预计还会进一步增加。

Bugbee和她的跨学科团队中，有具备数据管理和信息学专业知识的科学家、开发人员、AI和机器学习专家，他们和利益相关者密切合作以了解他们的需求，并与NASA的CIO办公室以及Sinequa打造了PoC。

她解释说：“他们帮助我们构建了我们需要的环境，我们必须拥有开放的能力，因此我们有一些特殊的架构需求。”

Bugbee表示，她的团队在启动和运行过程中遇到的最大挑战之一，就是内容在NASA生态系统中的分散程度。她的团队花了大约一年的时间试图了解信息格局、数据和元数据模式。

“所有真正为数据带来丰富性的上下文信息——比如代码和GitHub，或者描述数据如何开发的算法文档——这类内容分布在许多网页上，我们一直在努力找出并确定所有这些东西所在的位置，”她说。

为起飞做好准备

Bugbee对数据管理和数据管理并不陌生。她在致力于提高Data.gov和奥巴马总统的气候数据倡议的元数据质量的领域中崭露头角。但在SDE的工作确实让人们认识到良好管理工作流程的重要性：有原则和受控的数据创建、维护和管理的流程。

“如果我能回到过去，我就会从一开始就内置一个更强大的工作流程。我们一开始就使用了开箱即用的方法，并且在一段时间内发挥了作用，但为了真正获得我们想要的结果，我们需要对工作流程进行规划。”

虽然SDE仍处于测试阶段，但Bugbee表示，她的团队迄今为止已经收到科学家的大量积极反馈，计划在今年晚些时候提供一个更全面的操作系统。现在她的团队已经打造了一个新的用户界面，允许用户在开始搜索之前按主题进行过滤。

来源：至顶网CIO与CTO频道

AI
NASA

0赞

好文章，需要你的鼓励

NASA数据科学家：通过AI驱动的搜索加速科学发展

来源：至顶网CIO与CTO频道

2024

01/17

14:05

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: