毕业论文
您现在的位置: 遥感 >> 遥感发展 >> 正文 >> 正文

RSP遥感预训练的实证研究

来源:遥感 时间:2022/5/9

深度学习在很大程度上影响了遥感影像分析领域的研究。然而,大多数现有的遥感深度模型都是用ImageNet预训练权重初始化的,其中自然图像不可避免地与航拍图像相比存在较大的域差距,这可能会限制下游遥感场景任务上的微调性能。

为此,京东探索研究院联合武汉大学、悉尼大学借助迄今为止最大的遥感场景标注数据集MillionAID,从头开始训练包括卷积神经网络(CNN)和已经在自然图像计算机视觉任务中表现出了良好性能的视觉Transformer(VisionTransformer)网络,首次获得了一系列基于监督学习的遥感预训练基础骨干模型。并进一步研究了ImageNet预训练(IMP)和遥感预训练(RSP)对包括语义分割、目标检测在内的一系列下游任务的影响。

实验结果证实了探索研究院先前提出的先进VisionTransformer系列模型ViTAE在遥感任务上的优越性,并发现RSP在遥感任务上的有效性以及感知相关语义方面具有的独特性。实验结果进一步表明RSP会受到上下游任务差异的影响,这些发现对遥感大规模数据集和预训练方法提出了新的要求。

01

研究背景

近年来,深度学习凭借自动提取反映物体固有属性的深度特征的优势,在计算机视觉领域取得了令人印象深刻的突破,遥感领域也不例外。在遥感领域,最常用的是深度模型是卷积神经网络(CNN)。目前,几乎所有的遥感深度模型都是在计算机视觉领域最著名的图像数据集ImageNet-1K数据集上进行预训练,该数据集中来自1,个不同类别的百万张真实世界图像使模型能够学习强大的表示。然后这些预训练后的模型被可以用做遥感任务的骨干网络进行进一步微调。

尽管这些模型在遥感任务中取得了显著的效果,但仍有一些问题需要研究。直观地说,与自然图像相比,遥感图像在视角、颜色、纹理、布局、对象等方面明显存在较大的域差距。以前的方法试图通过进一步微调遥感图像数据集上的预训练模型来缩小这一差距。然而,ImageNet预训练(IMP)引入的系统偏差对性能有着不可忽视的副作用。另一方面,我们注意到,随着遥感技术的进步,各种各样的传感器捕捉到了丰富的遥感图像,可以用于预训练。作为一个代表性的例子,MillionAID是迄今为止最大的遥感图像数据集,它是从包含多种传感器图像的谷歌地球(GE)上收集的,并且具有类似ImageNet-1K的百万级图像数量规模,这使遥感预训练(RSP)成为可能。

RSP能够从头开始训练深度模型,这意味着候选模型不必局限于现成的CNN。因此,在本文中,我们也研究了视觉Transformer(VisionTransformer)的骨干网络,它们在计算机视觉领域表现出了令人惊讶的性能。与CNN中擅长局部建模的卷积相比,VisionTransformer中的多头自注意(MHSA)能够灵活地捕捉不同的全局上下文。最近,探索研究院提出的ViTAE模型探索了卷积和MHSA的平行结构,以同时建模局部性和长程依赖性,在ImageNet分类任务和下游视觉任务上取得了很好的结果。此外,它还通过扩张卷积模块和层级设计提取多尺度特征,这对于计算机视觉下游任务,尤其是在遥感图像理解任务,都具有重要的价值。因此我们研究了CNN和层级VisionTransformer网络经过RSP后,在场景识别、语义分割、目标检测和变化检测等遥感任务上的微调性能。为了实现这些目标,我们在九个流行的数据集上进行了广泛的实验,并得出了一些有益的结论。RSP是遥感图像理解中的一个新兴研究方向,但仍处于探索阶段,尤其是基于VisionTransformer这种新型网络架构的预训练方法。我们希望这项研究能够填补这一空白,并为未来的研究提供有用的见解。

02

MillionAID,ViTAE和ViTAEv2的介绍

1.MillionAID

MillionAID是迄今为止遥感领域最大的数据集。它包含,个不重叠的场景,有51类,每类大约有2,-45,图像。该数据集来自谷歌地球,由包括但不限于SPOT、IKONOS、WorldView和Landsat系列的多种传感器组成,因而图像分辨率不同。最大分辨率可达0.5m,最小的则有m。图像大小范围从*到31,*31,。该数据集均为RGB图像,非常适合训练典型的视觉神经网络模型。

2.ViTAE和ViTAEv2

ViTAE是探索研究院最近提出的先进VisionTransformer模型,它采用深窄式设计,在网络开始时迅速降采样,然后将网络加深,在提高性能的同时降低模型大小和计算成本。ViTAE模型首先通过三个ReductionCell将输入图像下采样到1/16分辨率。与ViT类似,在添加位置编码之前,将classtoken与第三个ReductionCell的输出连接。然后堆叠多个NormalCell,并始终保持特征图分辨率。最后一个NormalCell的classtoken输入到线性层进行分类。ViTAE模型在ImageNet数据集上分类性能表现出色,但它不方便像CNN那样产生层次化的中间特征,从而迁移到分割、检测和姿态估计等其它下游任务(目前有一些新技术来解决这个问题,例如ViTDet,并已取得较好成果,请

转载请注明:http://www.0431gb208.com/sjszyzl/216.html