传统的遥感解译工作费时费力,借助深度学习能力的遥感影像智能解译技术大大提升了解译工作效率。但由于影像光谱的复杂性和地物类别的多样性,遥感解译深度学习模型也需要针对不同应用场景进行优化,以达到更优的精度。在此过程中,使用模型评估功能对模型的精度进行量化统计,可为模型的迭代优化提供重要依据。
PART.01
什么是模型评估?
使用遥感影像提取地物信息可通过多种方式实现,如传统的光谱指数阈值方法,支持向量机、随机森林等机器学习方法,以及基于深层次神经网络拟合的深度学习方法。不管采用哪种方法,模型都需要通过已有的试验数据来构建,并应用到新数据中。一个理想的模型应该在试验数据和新数据上都有较优的表现,为此需要定量客观地评价模型的预测精度。
模型评估就是这样一个定量化描述模型表现的工具,它通过对比模型推理的结果和真实地物信息,计算一系列评估指标来验证模型效果。一方面,基于相同的推理数据和详细的评估指标,模型评估可比较多个模型的应用效果;另一方面,模型评估结果通常包含总体和子类的多种评估指标,能够快速发现在训练过程中可能出现的问题并辅助训练人员针对性地对模型进行优化。
模型评估流程示意图
例如在遥感影像土地覆盖分类任务中,可能出现在训练数据上的精度已达到较高水平,而模型评估时发现模型对新数据中某一类地物的分类效果较差的情况。此时可针对该类地物补充更多的样本数据,重新进行训练,从而提高模型的泛化能力。
模型评估支持模型的迭代优化
PART.02
如何选择评估指标?
模型评估的关键在于推理结果与真实标签的对比,以单类别飞机目标检测为例,检测结果将有4种情况:
①模型检测出影像中有一架飞机,真实标签显示该位置确实有一架飞机;
②模型检测出影像中有一架飞机,而真实标签显示该位置不是飞机;
③模型认为影像中没有飞机,而实际上该位置有一架飞机;
④模型认为影像中没有飞机,实际上影像中确实没有飞机。
目标检测结果对比
对于一个表现较好的飞机目标检测模型,推理结果中①④出现的数量应远远大于②③。因此,统计这4种情况在整个推理影像中发生的数量,可以大致了解模型的推理效果。混淆矩阵是一个高效的工具,可帮助我们记录模型在推理影像上的表现,上图中的四种情况分别对应混淆矩阵中的真正例(TruePositive,TP)、假正例(FalsePositive,FP)、假反例(FalseNegative,FN)和真反例(TrueNegative,TN)。例如,推理影像a中有架飞机,模型b识别出了90个目标,经验证,其中仅有80个是正确的飞机目标。则TP=80;FP=90-80=10;FN=-80=20。
混淆矩阵示意图
混淆矩阵清晰直观地显示了推理结果与真实标签的对比情况,但TP、FP、FN和TN的绝对数值尚不具备指示意义,还需根据混淆矩阵计算其他评估指标,来更全面地了解和分析模型性能。
精确率(Precision)告诉我们在某类别的正类预测中有多少是正确的,主要考察模型“找得准”的能力,因此也叫“查准率”。召回率(Recall)描述的是有多少正类被模型预测为正,主要考察模型“找得全”的能力,因此也叫“查全率”。通常情况下,Precision和Recall是负相关的,在实际应用中,可能需要对两者进行取舍。例如在安防领域,我们希望可疑目标尽可能地被模型检测出来,这种情况下,则需要更 在目标检测任务中,还有一个常用的评估指标——AP(AveragePrecision)。目标检测算法在影像中生成多个目标候选框,并给出对应的置信度得分,而置信度阈值决定了从候选框中选取多少作为最终的检测结果,只有得分高于该阈值的候选框才被保留。Precision和Recall随着置信度阈值的变化,可以绘制成Precision-Recall曲线(P-R曲线),每一类检测目标P-R曲线下区域的面积定义为AP。AP能有效地评估各子类目标的检测效果,而各类别AP的平均值就是mAP,可反映模型的综合检测能力。
适用于影像分类的评估指标则与目标检测有所不同。平均像素精度(meanPixelAccuracy,mPA)等于预测正确的像素与总像素个数的比值,是最常用、最容易理解的评估指标。但是,在多分类问题中,如果各类别数量极度不平衡,可能会出现mPA较高,而实际模型效果欠佳的情况,此时可以借助各子类别的像素精度(ClassPixelAccuracy,CPA)或Kappa系数来辅助评估。Kappa系数是对两组数据吻合度的描述,可以缓解类别非常不均衡时产生的影响。此外,还可以计算预测边界与地面真实边界的交并比(IntersectionoverUnion,IoU),来描述推理结果与真实标签两组数据的重合度。
交并比计算示意图
PART.03
SuperMap中的模型评估工具
SuperMap模型评估工具针对影像目标检测、二元分类、地物分类和通用变化检测模型提供了不同的评估指标,如下图所示:
SuperMap模型评估指标
此外,SuperMap“一键式”的模型评估工具方便快捷,用户只需要输入推理结果与真实标签,选择模型类型,即可得到全面详细的评估指标表,方便用户对模型效果进行多维度的判断和分析。下图以目标检测为例,展示了如何使用SuperMap桌面软件的模型评估工具。
目标检测模型评估步骤
从评估表中可以看到总类别“ALL_Classes”的各评估指标得分均不超过0.8,表明模型的总体精度还有进一步提升的空间。总体的Recall(0.)高于Precision(0.),也就是模型“误检”多于“漏检”,因而,模型的改进应着重提升Precision。
由于评估的是针对多类别飞机的目标检测模型,因此评估表内还包含各类别飞机的F1-score、Precision、Recall和AP指标。其中,类别01、02、05的评估指标均为0,查看真实标签和推理结果发现,该推理影像中并不存在这几种类型的飞机,但模型在训练数据中已学习到这几种飞机的特征,并在该影像中“误检”了出来。由于这些“误检”的目标框置信度得分大多在0.5-0.6之间,因此可以通过适当提升置信度阈值来提升检测的Precision。另外,类别03和04的F1-score和AP也较低,可以查看检测效果较差的01、02、03、04、05类型的飞机样本是否具有代表性、是否有漏标误标的现象,从而调整训练数据继续训练以提升模型精度。
PART.04
总结
随着基于深度学习技术的遥感影像解译领域的不断发展,各种模型研究和应用项目越来越深入,需要全面客观地评估模型,以确定新算法是否改进或模型是否符合业务精度需求。为了满足以上需求,SuperMap系列产品提供了一整套集成多功能、多指标的模型评估工具,实现了高效、便捷、“一键式”的模型评估,方便用户开展相关研究和应用。
转载请注明:http://www.0431gb208.com/sjszyzl/8797.html