为了让科学家更好地访问美国国家航空航天局(NASA)所收集的大量科学数据,NASA开发了一个科学发现引擎,利用生成式AI来提供上下文结果。
Kaylin Bugbee,NASA数据科学家
当你生成和收集的数据和NASA一样多的时候,为研究项目找到恰当的数据集就可能变成了一个问题。
NASA拥有7个运营中心、9个研究设施和18000多名员工,不断生成大量的数据并保存在30多个科学数据存储库中,涵盖了5个主题领域——天体物理学、太阳物理学、生物科学、物理科学、地球科学和行星科学。总体而言,NASA拥有128个数据源的88000多个数据集和715000份文档。到2025年,NASA的地球科学数据预计将达到250 PB。在如此复杂的情况下,科学家需要的不仅仅是领域专业知识才能驾驭这一切。
美国阿拉巴马州亨茨维尔马歇尔太空飞行中心的NASA数据科学家Kaylin Bugbee表示:“这就要求研究人员知道要访问哪个存储库以及这个存储库包含哪些内容,你必须具备科学素养和数据素养。”
2019年,NASA科学任务理事会(SMD)发布了一份基于对科学家一系列采访的报告,报告明确指出,这些科学家需要集中式的搜索能力来帮助他们找到所需的数据。SMD的使命是与美国科学界进行合作,为科学研究提供赞助,利用飞机、气球和航天项目对地球轨道、太阳系及其他地区进行调查。SMD认识到,让科学家和研究人员能够访问这些数据是至关重要的,因此根据该报告制定了开源科学计划(Open Source Science Initiative,OSSI),致力于让这份公共资助的科学研究是透明、包容、可访问和可重复的。OSSI的使命是:致力于在科学过程中尽早开放共享软件、数据和知识(包括算法、论文、文档和辅助信息)。
Bugbee说:“它确实是来自科学家和科学界的,也符合我们更广泛的SMD优先事项,即实现跨学科的科学,从中产生新的发现。”
为了促进这一使命,NASA现在正在转向使用神经网络和生成式AI,让海量数据对于科学家们来说都是触手可及的。
恢复秩序
OSSI的一个关键要素是科学发现引擎(Science Discovery Engine,SDE),这是NASA所有开放科学数据和信息的集中搜索和发现功能,由Sinequa的企业搜索平台提供支持。
Bugbee说:“在SDE创建之前,你无法在其他任何地方搜索到我们的开放数据和文档,现在它成为我们开放科学数据的一项搜索功能。”
总部位于纽约的Sinequa公司成立于二十多年前,以语义搜索引擎起家,专注于利用AI和大型语言模型来提供上下文搜索信息。Sinequa将微软的Azure OpenAI服务与自己的神经搜索功能进行集成,为该平台提供动力。
具体来说,Sinequa的神经搜索功能结合使用关键字和向量搜索来发现信息,而GPT将收集到的信息总结为可快速消化和可重用的格式,它还允许科学家使用自然语言提出更深层次的问题并完善搜索或响应。SDE可以理解近9000个不同的科学术语,随着AI的学习这个数字预计还会进一步增加。
Bugbee和她的跨学科团队中,有具备数据管理和信息学专业知识的科学家、开发人员、AI和机器学习专家,他们和利益相关者密切合作以了解他们的需求,并与NASA的CIO办公室以及Sinequa打造了PoC。
她解释说:“他们帮助我们构建了我们需要的环境,我们必须拥有开放的能力,因此我们有一些特殊的架构需求。”
Bugbee表示,她的团队在启动和运行过程中遇到的最大挑战之一,就是内容在NASA生态系统中的分散程度。她的团队花了大约一年的时间试图了解信息格局、数据和元数据模式。
“所有真正为数据带来丰富性的上下文信息——比如代码和GitHub,或者描述数据如何开发的算法文档——这类内容分布在许多网页上,我们一直在努力找出并确定所有这些东西所在的位置,”她说。
为起飞做好准备
Bugbee对数据管理和数据管理并不陌生。她在致力于提高Data.gov和奥巴马总统的气候数据倡议的元数据质量的领域中崭露头角。但在SDE的工作确实让人们认识到良好管理工作流程的重要性:有原则和受控的数据创建、维护和管理的流程。
“如果我能回到过去,我就会从一开始就内置一个更强大的工作流程。我们一开始就使用了开箱即用的方法,并且在一段时间内发挥了作用,但为了真正获得我们想要的结果,我们需要对工作流程进行规划。”
虽然SDE仍处于测试阶段,但Bugbee表示,她的团队迄今为止已经收到科学家的大量积极反馈,计划在今年晚些时候提供一个更全面的操作系统。现在她的团队已经打造了一个新的用户界面,允许用户在开始搜索之前按主题进行过滤。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。