SEN12MS–A CURATEDDATASET OF GEOREFERENCED MULTI-SPECTRAL SENTINEL-1/2 IMAGERY FOR DEEPLEARNING AND DATA FUSION
SEN12MS - 一个精选的地理参考多光谱Sentinel-1/2图像数据集,用于深度学习和数据融合
0 摘要
在地理信息领域中,用于训练的数据集质量对于深度学习来说至关重要。然而现有的多数数据集都有缺陷,比如空间覆盖范围、实例多样性或样本数量等。
然后这是一个三元组数据集,包括:SAR图像、多光谱Sentinel-2图像和MODIS土地覆盖地图,共有十八万条数据,空间分辨率为10米,数据集覆盖了所有有人居住的大陆和所有气象季节。
1 引言
文章首先强调了数据集标注质量的重要性,然后提到在CV领域,遥感数据相对于某件特定的物品数据来说更为复杂,更为多样化和难以解释,这就导致了遥感领域不存在大规模的标注数据库,比如ImageNet这样的。并且提到了大多数机器学习竞赛中使用的数据集都没有在科学论文中描述和讨论。
这里附了一张表,列举了一些遥感领域的知名数据集,其中有很多也是项目中所使用的,比如UC Merced Land Use Dataset、DOTA、38-Cloud等。
2 数据集基础
使用Sentinel-1和Sentinel-2提供的SAR和多光谱图像,然后添加了MODIS系统获取的土地覆盖信息。
后面分别介绍了这三种基本数据源。
比较有用的信息有:IW模式,VV和VH两种极化方式,每个像素代表实际地面上5米 × 20米的区域,土地覆盖信息中各层的总体精度分别约为67%(IGBP)、74%(LCCS土地覆盖)、81%(LCCS土地利用)和87%(LCCS地表水文)。
3. Google Earth Engine 用于数据准备
基于GEE的无云Sentinel-2图像生成流程:
本文所使用的方法与该流程类似,但增加了一种更为复杂的图像镶嵌的workflow用以生成无云的短期 Sentinel-2 镶嵌图像。
流程主要分为三个模块,简要摘要如下:
(1)查询模块,用于从目录中加载图像。在此模块中,对于指定的 ROI,选择了在指定时间段内可用的所有 Sentinel-2 图像。
感兴趣区域(ROI,Region of Interest)在遥感或图像处理领域是指从图像或数据集中选择出来的特定区域,这个区域包含对某项研究或分析特别重要的信息。
ROI通常是根据用户的研究目的或分析目标来定义的。例如,在遥感图像分析中,ROI可能是一个城市、森林、湖泊、农田等特定的地理区域。在医学图像处理中,ROI可能是身体扫描中的肿瘤或病变部位。
(2)质量分数模块,用于计算每个图像的质量分数。在此模块中,将为每个 Sentinel-2 图像的每个像素分配一个分数,该分数考虑其受云或阴影影响的可能性。
(3)图像合并模块,用于基于在前面的模块中生成的元信息镶嵌所选图像。首先,对质量分数进行阈值处理,以确定每个图像的云和阴影掩模。然后,根据它们的贫像素数量对图像进行排序。最佳图像最终合并为一个无云镶嵌图像。
Sentinel-1 图像和 MODIS 地表覆盖数据不受云的影响。
4. SEN12MS数据集
文件名信息:
Sentinel-1数据可通过缩写s1识别,Sentinel-2数据可通过s2识别,MODIS土地覆盖数据可通过lc识别;每个补丁可以通过标记pXXX进行标识,其中XXX表示每个补丁的唯一标识号码。因此,文件命名约定遵循以下方案:ROIsSSSS SEASON DD pXXX.tif,其中SSSS表示种子值,SEASON表示为北半球定义的气象季节,DD表示数据标识符,XXX表示补丁标识符。
5. 应用于土地覆盖映射
没有具备价值的信息。