至顶网CIO与CTO频道 04月27日 人物访谈(文/王聪彬):大家可能都用过谷歌地图的街景功能,让你可以足不出户就能看世界,通过将一景一景的图片拼接,并在图像的接边处进行平滑的羽化,但是这也仅限于大家看看世界。因为图像看似连续,数据却可能与真实情况不符,如果在此基础上做进一步的信息提取就会产生误差。
在可持续发展这件事上,人们对于使用地球卫星观测数据一直有着巨大的需求,但是使用门槛依然还很高。所以清华大学地球系统科学系通过公共数据资源和时空遥感技术,制作完成了中国2000-2018年间逐季节土地覆盖和逐年土地利用制图,以及中国30米逐日无缝遥感数据集Seamless Data Cube(SDC)。
在此之前中国一直没有直接就能使用的数据(Analysis Ready Data, ARD),此次项目对数据的处理、销售、共享、应用都产生了根本性的改变,对于地球系统观测行业将产生深远影响,清华大学理学院院长、地球系统科学系主任宫鹏教授也称这是一场革命。而云计算在项目的背后提供了核心的支持,包括了大量的计算和存储资源,驱动了人工智能和数据的时空建模算法,从而恢复和重建了数以万计的各种云污染卫星图像,解决了高效运行PB级数据的分析所带来的挑战。
清华大学理学院院长、地球系统科学系主任宫鹏教授
为可持续发展提供定量化决策参考
土地覆盖、土地利用是自然和人类作用的共同塑造结果,也是人类活动对土地自然生态系统影响的直接表现形式。全球及区域土地覆盖数据对绝大多数全球变化研究目标是非常重要的,可以实现像全球环境状况评估、模拟未来全球环境情景,帮助环境保护政策的制定。
随着人类活动的加剧,地球表面正发生前所未有的变化,需要及时、准确地获取地球表面特性以快速的了解变化。土地覆盖、土地利用制图是提取遥感观测信息,有力监测地表变化的重要途径。
宫鹏教授指出,现在世界已有土地覆盖制图产品存在很多缺陷和问题,第一、制图样本采集难度大、复用率低;第二、产品灵活性差,无法满足更为广泛的用户需求;第三、城市、农作物种植、森林火灾等快速变化地区,难以有效实现同时高空间分辨率和高时间频率检测、近实时土地动态监测;第四、时间序列制图可比较性较差。
针对这些世界性难题,宫鹏教授团队开发了首套中国2000-2018年间逐季节土地覆盖和逐年土地利用图,将世界首套30米、10米土地覆盖图精度分别提高了20%和10%,以前所未有的高空间分辨率和高时间频率反应地表格局与动态变化,这就是中国2000-2018年间逐季节土地覆盖和逐年土地利用图。但是完成项目的前提需要大量的高质量遥感观测数据,所以作为中间衍生产品首套中国30米逐日无缝遥感数据集Seamless Data Cube(SDC)也在其间孕育而生。
首套中国30米分辨率逐季节土地覆盖图
世界唯一一套10米分辨率地表覆盖图
为了解决高空间分辨率和频繁的时间覆盖之间的冲突,并改善部分不完整的情况,清华大学地球系统科学系刘涵博士等提出了一种多维数据立方体的时空数据融合重建框架,该框架具有自动化的,无服务器的端到端生产链,以构建一组无缝、分析就绪数据格式的多维数据集。这套数据将大大减轻用户的预处理负担,将遥感数据的使用范围扩大到更广泛的社区,并为我们提供近实时地球观测的能力。
“首套中国30米逐日无缝遥感数据集Seamless Data Cube(SDC)和制图产品代表着中国卫星遥感数据处理和信息提取的新范式。”宫鹏教授说道,其可以进一步应用于自然灾害防范、农业检测、城乡规划、生态环境保护、气候模拟、可持续发展等方面,对国民经济、社会发展提供定量化的决策参考。
从中国2000-2018年间逐季节土地覆盖和逐年土地利用图可以看到,我国耕地确实在减少,但是目前耕地面积并没有想象的担忧,离18亿亩的耕地红线还很远;经过时空一致性的结算,了解到中国森林面积在不断增加,印证了我国森林保护工程的高有效性;国家保护区有较好的土地保护效应,但是在保护区周围有比较大的干扰,有较强的土地利用还有破坏的效果。
云与土地制图衍生出无限应用可能
由于项目需要大量的计算和数据存储资源,宫教授的团队很快就锁定了AWS,因为云计算具备稳定性、灵活性、性能等多种优势,所以在2019年9月开始了合作。据介绍项目使用了10万个vCPU,相当于500强算力里前200位超级计算机所提供的能力,传统的建设可能需要三百到四百个机柜,正是因为云计算让项目的建设周期大大缩短。
同时在构建中国30米逐日无缝遥感数据集时需要开放数据集,开放数据集的规模达到PB级,如果将数据存储再计算,会耗费大量的时间。宫鹏教授指出,AWS提供了公共数据集,根据不同区域的开放数据集,我们可以在AWS就近区域进行计算,节省了搬运数据的时间与数据集存储的费用,快速对公共数据集进行计算得到最后的结论。
除了算力和公共数据集,AWS在首套中国30米逐日无缝遥感数据集Seamless Data Cube(SDC)和首套中国2000-2018年间逐季节土地覆盖和逐年土地利用图的制作过程中也给予了很多支撑。
首套中国30米逐日无缝遥感数据集Seamless Data Cube(SDC)是基于AWS开放数据集上PB级的遥感数据,构建了虚拟星座,之后基于AWS无服务器以及容器化的大规模并行计算技术,构建了一套端到端、自动化的Data Cube生产链。基于这条生产链生产了Raw Data Cube,进一步利用团队刘涵博士等自主研发的时空数据融合重建技术生成Seamless Data Cube,并通过特征工程和特征学习技术获得用于制图的Feature Cube,从而构建了一套Multi-level ARD产品体系。
首套中国2000-2018年间逐季节土地覆盖和逐年土地利用图是基于SDC,运用AWS上一整套完善的人工智能和机器学习的套件和服务,像Amazon SageMaker、Amazon EKS、Amazon EMR等。并且结合世界首套全球全季节普适样本库和相关领域知识,设计和训练了一套适应遥感大数据的深度遥感特征学习和分类模型。再利用AWS AutoGluon等自动化多层堆叠集成技术对模型结构和参数进行深度调优,并进行分布式高性能推理。分类结果最后经过遥感专业化的变化检测和时空一致性后处理方法,得到首套中国2000-2018年间逐季节土地覆盖和逐年土地利用图。
清华大学刘涵博士表示,从原始数据到Raw Data Cube到Seamless Data Cube再到最终的制图产品,都是统一存放在我们构建的AWS Remote Sensing Data Lake(遥感数据湖)中,实现各种异构数据的存储,同时也方便数据统一处理和分析。
宫鹏教授也提到下一步希望与AWS继续制作出全球的SDC,以及逐年逐季节土地覆盖和逐年土地利用图,这也将衍生出无限的应用可能。
好文章,需要你的鼓励
新加坡人工智能机构与阿里云发布全新大语言模型Qwen-Sea-Lion-v4,专门针对东南亚语言和文化特色进行优化。该模型结合阿里云Qwen3-32B基础模型和大量东南亚地区数据集,在东南亚语言模型评估榜单中位居开源模型首位。模型支持119种语言,能在32GB内存的消费级笔记本上运行,采用字节对编码技术更好处理非拉丁文字,并具备3.2万词元上下文长度,可执行文档级推理和摘要任务。
中科大联合快手等机构推出VR-Thinker技术,首次实现AI视频评判员的"边看边想"能力。该系统通过主动选择关键画面、智能记忆管理和三阶段训练,在视频质量评估准确率上达到75%-82%,特别擅长处理长视频场景,为AI视频生成的质量控制提供了突破性解决方案。
AI智能体是下一代业务自动化工具,不仅能对话交流,还能执行复杂任务。与ChatGPT聊天机器人不同,它们可在最少人工干预下规划并完成工作。文章介绍了五个高影响力应用:自动化客户服务解决方案、销售CRM管理、合规自动化、招聘筛选与排程、市场情报报告。这些应用都具有重复性工作流程、依赖结构化数据、遵循可预测规则等特点,能够释放员工宝贵时间用于更有价值的工作。
微软研究院发布BitDistill技术,通过三阶段优化将大型语言模型压缩至1.58位精度,在保持性能的同时实现10倍内存节省和2.65倍速度提升。该技术包括模型结构稳定化、持续预训练适应和知识蒸馏传承三个关键步骤,解决了模型量化中的性能衰减和规模化问题,为AI模型在资源受限设备上的高效部署提供了新方案。