联合边缘检测强化空间细节的语义分割方法

　　针对图像语义分割中存在的边缘模糊和准确度较低的问题，提出一种基于边缘感知强化空间细节的图像语义分割方法，在语义分割网络中引入边缘检测模块，以捕获更加精细的空间细节。模型采用编码器-解码器结构，使用空间金字塔池化模块(atrous spatial pyramid pooling, ASPP)提取语义信息;提出双向多级聚合模块(bi-directional multi-level aggregation, BMLA)生成边缘特征，并使其强化空间细节;设计一种新型的基于注意力机制的特征融合模块(attention feature fusion module, AFFM)，将强化后的空间特征与语义特征融合。采用Cityscapes和ADE20K数据集进行实验，对比其他主流语义分割算法，该方法在分割性能上具有不错的竞争力。

　　关键词：语义分割;边缘检测;编码器-解码器;注意力机制

　　论文《联合边缘检测强化空间细节的语义分割方法》发表在《重庆邮电大学学报(自然科学版)》，版权归《重庆邮电大学学报(自然科学版)》所有。本文来自网络平台，仅供参考。

模型整体框架

　　0 引言

　　随着经济不断发展，人们越来越期待在现实生活中获得更多科技带来的便利。在交通领域，人们期待通过无人驾驶实现长时间、全天候、低成本的交通出行;在医疗领域，医生迫切需要计算机辅助分析医疗影像;在遥感领域，对高空遥感影像进行精准分割将有助于城乡建设规范与管理等。这些应用领域都需要精准高效的语义分割算法作为技术支撑，语义分割能够模拟人类的视角划分出图像中物体的类别，解放人们简单但是繁琐的劳动行为。语义分割的目标是为图像的各个像素点分配一个语义类别，从而将图像分割成不同的语义区域，如宠物、行人、建筑、车辆等[1]。随着深度学习的兴起，一种全卷积神经网络[2](fully convolutional network, FCN)摆脱了传统语义分割算法中手工设计特征和启发式规则的束缚，实现了端到端的预测，为后续的研究提供了启发。

　　语义分割的一个重要思想是，要求网络同时实现语义信息和空间信息的提取。语义信息提供物体区域特征和全局上下文特征实现分类，空间信息提供物体结构特征和边缘细节实现定位。然而，许多模型侧重于提取语义信息，对空间信息的处理却较为粗糙。为了降低计算量并扩大网络感受野，这些模型还会缩减图像尺寸，导致丢失图像的空间细节和小目标物体特征，从而引起边界模糊和准确度较低的问题。目前被广泛使用的提取空间信息的方法通常是简单地拼接或相加主干网络的低维度特征。然而，这些低维度特征中的空间信息模糊且粗糙，无法提供精细的空间细节。多余的空间信息可能以噪声的形式影响判断，导致分割类内不一致。因此，有效地提取精细的空间细节成为改进语义分割模型的重要挑战。

　　考虑到边缘检测近似于一个预测语义类别边缘的二分类语义分割问题，其目标是从图像中提取出亮度变化剧烈的像素点构成的集合，从而形成可见的轮廓。因此，本文设计了一种基于边缘感知强化空间细节的卷积神经网络。为了使模型能够理解全局的语境信息和提取高级语义信息，网络采用了空间金字塔池化模型来获取多层次上下文信息。为了增强模型的边缘感知能力，将主干网络的各阶段特征输入到双向多级聚合模块中，实现了自底向上和自顶向下的空间信息解码，并设置了边缘辅助监督，运用多任务学习的思想提高模型的空间探索能力。同时，为了解决空间特征和语义特征融合不充分的问题，本文设计了注意力特征融合模块，使边缘特征两次强化空间特征，并引入注意力机制探索2种特征内在联系。通过实验分析，本文提出的基于边缘感知的语义分割模型在避免分割边缘模糊问题和类间难区分问题的同时提高了分割性能，联合边缘检测的思想值得进一步研究。

　　1 相关工作

　　FCN[2]作为基于深度学习的语义分割算法的开篇之作，通过全卷积神经网络实现了端到端的训练和有层次的特征提取方式，其分割性能远超传统算法。但是，FCN处理特征的方式较为粗糙，提取的空间信息和语义信息都十分模糊。为了获取丰富的语义信息，PSPNet[3]采用空间特征金字塔池化来提取多尺度的上下文信息，而Deeplab系列[4-5]模型在空间金字塔池化的基础上设计了空洞空间金字塔池化，以提高模型对不同尺寸的物体的感知能力。GCN[6]通过设计1×k+k×1和k×1+1×k卷积的组合，达到了近似k×k的大卷积的效果，使用卷积的方式感知上下文会受卷积核和图像尺寸的限制，受限的感受野只能在像素之间建立短距离依赖关系，但引入注意力机制的卷积神经网络能动态地生成不同连接的权重，使得图片的每个像素点都能获得全局上下文信息[7]。Fu等[8]提出空间自注意力机制为像素与像素之间的关系加权，通道自注意力机制为通道与通道之间的关系加权。CCNet[9]的核心是引入交叉通道和双向注意力机制，以增强语义分割网络的表征能力，降低注意力机制的计算量。之后，Transformer结构被使用到语义分割领域[10-11]，使得图像每个阶段都能建立全局依赖关系。

　　语义分割的空间信息和语义信息是矛盾的，扩大感受野或缩小图像尺寸会丢失细节特征，现有网络模型不断精进提取语义信息的方法，却难以兼顾提取空间信息。Deeplabv3+[5]、FCN等模型只是简单的拼接或相加主干网络低维度特征，部分基于注意力机制模型和Transformer模型具有出色的感知能力但并未针对性地处理空间细节。2015年，Ronneberger等[12]设计的U-net引入跳跃连接构建一个U型网络结构将细节信息和高维语义信息结合起来，这启发了后续的研究[13]，但该模型使用的细节信息是粗糙的低维度特征。

　　边缘检测的目标是检测图像中色差变化较大的区域，近似于二分类的语义分割问题。它同样利用卷积神经网络改变了传统算法思路，并逐渐引入各种结构，例如DexiNed[14]使用编码器-解码器卷积结构来构建模型、DSCD[15]在卷积的基础上结合了各阶段多尺度特征、EDTER[16]使用Transfomer来获取上下文信息。为了使得模型针对性地提取空间信息，部分模型提出语义分割联合边缘检测进行多任务学习的思路。文献[17]设计的网络能同时学习边缘检测和语义分割以实现互补，文献[18]中的网络能学习边缘检测特征作为中间表示，这些方法只是利用边缘检测的损失值来影响模型的参数更新。后续的工作将生成的边缘检测特征显式地结合到分割特征中，GSCNN[19]将形状信息作为一个单独的分支来提取对应的轮廓信息，使用双流卷积便于信息从规则流流向形状流;在GSCNN的启发下，Zou等[20]提出边缘检测和语义分割双任务模型，并在2个任务之间迭代地分享潜在的语义;Zhen[21]将边界标注为一个额外的语义类来学习边界布局，并提出了用于采集和传播局部特征的边界感知特征传播模块。

　　2 边缘感知辅助语义分割方法

　　本文提出的基于边缘感知强化空间细节的图像语义分割模型采用了编码器-解码器结构，其整体框架如图1所示。为缩短训练时间，模型编码器采用在ImageNet[22]数据集上进行迁移学习的ResNet[23]网络作为主干网络。同时，为避免丢失信息并提高特征图的分辨率，本文取消了ResNet模型除Block1阶段外其他阶段的下采样操作，使Block1阶段获得的特征图尺寸为原图的1/4，其他阶段为原图的1/8。

　　2.1 空间金字塔池化模块

　　在像素级分类任务中，为了获取像素所属物体的语义信息，常常使用卷积操作。然而，由于图像中物体的尺寸差异很大，仅使用小感受野的卷积难以捕捉到大尺度物体的整体特征，而仅使用大感受野的卷积则容易忽略小尺寸物体。为了提取多尺度的上下文信息[24]，本文借鉴了PSPNet[3]和Deeplab V3+[5]的思想，采用空间金字塔(atrous spatial pyramid pooling, ASPP)模块作为模型的语义信息提取模块，该模块的结构如图2所示。

　　ASPP模块将主干网络提取的高维度特征作为输入，通过4个不同空洞卷积大小的深度可分离卷积(depthwise separable convolution, DSC)模块和一个自适应平均池化模块，生成多尺度上下文特征。由于输入特征的尺寸较大，所以空洞卷积的扩张率也相对较大，它们分别被设置为1、12、24、36。然后，将各个尺度的上下文特征进行拼接，并通过一个3×3卷积提取最终的语义特征。DSC模块由一个3×3卷积和一个1×1卷积组成，前者实现空洞卷积，后者降低通道数。本文所述的卷积操作都是由Conv+BN+ReLU组成的卷积组。

　　2.2 双向多级聚合模块

　　双向多级聚合是一种常见的边缘检测方法[16]，在语义分割中也有应用[25]。受此启发，本文设计了双向多级聚合模块(bi-directional multi-level aggregation, BMLA)，其实际上是一个针对边缘检测任务的解码器。与传统的边缘检测任务相比，辅助语义分割的边缘检测模块所面临的挑战更为复杂，不仅需要识别图像中色差变化显著的区域，还需要判断这些区域是否构成物体的边缘，因此，模块需要接收多维度的特征以满足不同的信息需求。为了满足这种多维的信息需求，该模块综合利用主干网络中4个阶段的特征，并通过自顶向下和自底向上的方法逐步实现相邻阶段的特征融合。在自顶向下过程中，高维特征携带丰富的语义信息，有助于探索物体结构并消除内部纹理的干扰，并在不断与低维特征融合的过程中逐渐定位边缘。在自底向上过程中，低维特征能够识别图像中微小的变化，但难以区分哪些变化是有价值的边缘，通过与高维特征的持续融合，可以逐渐削弱无关的纹理噪声，提高边缘检测的准确性。为了确保相关信息的充分性并弱化无关特征的不良影响，BMLA模块拼接了2种聚合结果，经过分析和处理，得到预测结果。被预测的真实边缘图通过标注分割图(边缘为1、非边缘为0)生成，设置边缘宽度为2。双向多级聚合模块的模块结构如图3所示。

　　该模块接收主干网络4个阶段的图像特征，通过1×1卷积操作降低通道数，并将其上采样至1/4的尺寸，以便后续的特征融合。在自顶向下的特征提取部分，高维度特征经过一次3×3卷积操作，然后与相邻阶段特征先相加再进行卷积操作，实现特征融合，直到迭代地融合所有特征。自底向上的特征提取部分与前者类似，不同之处在于它从低维度特征开始逐步向上地融合特征。将这2种融合特征拼接后输入到边缘提取模块中。边缘提取模块由一系列的卷积层构成，首先执行2次扩张率逐渐减小的空洞卷积，以获取更广泛的周边信息，然后通过3×3卷积和1×1卷积操作消除模糊区域，最终完成边缘预测。获取的边缘预测图是一个1通道、尺寸为原图像的1/4的特征矩阵。

　　考虑到边缘检测任务与语义分割任务有相似的信息需求，两者之间可以相互补充，因此，本文设置了边缘检测辅助监督。通过多任务学习的方法，使边缘检测效能能够影响整个模型的参数更新，提高模型对空间细节的探索能力。2种聚合方式表现为：

　　2.3 注意力特征融合模块

　　在语义分割模型中，常用的特征融合方法包括拼接、相加以及使用特征融合模块[26](feature fusion module, FFM)。然而，这些方法只能实现相邻像素的信息融合，无法捕获远距离依赖信息。文中边缘特征不仅需要划分精准的语义边界，还需要根据物体的整体轮廓消除类内不一致，因此，信息传递距离较短的特征融合方法无法满足这一需求。鉴于此，本文提出了一种新型的注意力特征融合模块(attention feature fusion module, AFFM)，旨在解决这一问题。该模块将ASPP的输出视为语义特征，将经过边缘特征2次显式强化后的低维度特征视为空间特征，并基于注意力机制实现两者的有效融合。低维度特征中的空间信息较为粗糙且杂乱，但存在着潜在的语义价值，经过边缘特征的强化后，该特征便能在凸显语义边缘的同时保留内部纹理。为了降低模型计算量和显存占用情况，本文采用了交叉注意力[9]机制。注意力特征融合模块的模块结构如图4所示。

　　具体而言，该模块首先将ASPP生成的语义特征上采样至原图像的1/4尺寸。然后，将边缘预测图像(1通道)复制至与低维度空间特征同通道(repeat模块)，并进行相加。相加后的结果通过带空洞的深度可分离卷积模块进行第1次边缘轮廓强化，使低维特征同时蕴含内部纹理和边缘细节。接下来，将强化后的低维特征与语义特征一起输入到多重交叉注意力模块(recurrent criss-cross attention, RCCA)中，实现特征融合。在RCCA中，语义特征生成键(key, K)和值(value, V)，强化后的低维特征生成查询(query, Q)。强化后的低维特征需要与复制至同通道维度后的边缘图像再次相加，进行第2次空间强化。最后，将第2次强化后的空间特征与RCCA的输出进行拼接，并经过2次深度可分离卷积，生成分割图像。

　　交叉注意力模块能收集其交叉路径上所有像素的上下文信息。交叉注意力模块首先在特征图上应用卷积生成Q、K、V，通过操作生成注意力图。Affinity操作表示为：

　　随后将V空间维度上特征向量集合 (eta_{u} in R^{C''×(W+H-1)}) 与注意力特征图进行操作，Aggregation操作表示为：

　　RCCA采用了二次交叉注意力，使每个位置的信息能通过同行同列元素传递到任一位置，因此，它构建的特征图中任意2个空间位置之间的联系都可以被描述。

　　3 实验及分析

　　为了检验基于边缘感知强化空间细节的语义分割模型的性能，本文在Cityscapes数据集[27]和ADE20K数据集[28]这2个具有挑战性的语义分割基准上对本文提出来的模型和主流技术进行对比实验，并对实验结果进行可视化分析。其中，Cityscapes数据集还被用作探索边缘检测分支最佳损失权重和模块有效性的语义分割基准。

　　3.1 模型训练细节

　　本文所有实验均在一张Tesla-V100显卡(内存32GByte)上采用pytorch深度学习框架和mmsegmentation代码库实现。在实验中均以平均交并比(mean intersection over union, MIOU)作为主要的评价指标，表示为：

　　式(6)中：P表示预测值;G表示真实值;N表示总类别个数。式(6)表示每个类别的预测值和真实值的交集除以并集，然后取平均。

　　边缘辅助监督使用的损失函数是BCE loss，在主干网络上的第4个阶段设置了FCN辅助监督，它和最终分割预测的损失函数都是交叉熵损失，实验总的损失函数表示为：

　　式中：L表示总的损失函数;(L_{s}) 是分割预测损失函数;(L_{e}) 为边缘辅助监督损失函数;(L_{a}) 为辅助监督损失函数;(l_{1})、(l_{2})、(l_{3}) 是关于各损失的权重值，它们被分别设置为1、0.3、0.4。

　　实验使用小批量梯度下降法(stochastic gradient descent, SGD)进行训练，采用Ploy学习率优化算法，power设置为0.9。Cityscapes和ADE20K的初始学习率都为1E-2，动量为0.9，权重衰减为0.0001。Cityscapes和ADE20K都通过随机缩放(0.75~2)和裁剪(512×1024、512×512)来增强训练图像，并对整张图像进行验证，验证结果包括单尺度(single scale, SS)和多尺度(multi-scale, MS)2个指标。SS在原尺度图像上验证，MS验证图像的尺寸随机缩放。其中，Cityscapes使用Resnet101作为主干网络，设置batch size为8，共进行80K次迭代。ADE20K用Resnet50作为主干网络，设置batch size为16，共进行160K次迭代。

　　3.2 边缘检测分支损失权重分析

　　为探索边缘感知分支BMLA对语义分割性能的影响，分别对边缘辅助监督损失函数权重和边缘类别权重进行控制变量实验，实验结果如表1所示。

　　| 0.3 | 30 | 81.55 | 82.53 |

　　| 0.2 | 30 | 80.55 | 81.62 |

　　| 0.4 | 30 | 80.47 | 81.50 |

　　| 0.3 | 20 | 80.40 | 81.18 |

　　| 0.3 | 40 | 80.06 | 81.54 |

　　对于边缘类别，它只占图像的极小部分，因此，需要较高的权重来消除与非边缘类别的不一致(非边缘类别权重恒为1)。由实验可知，20的类别权重太低，但40的类别权重会导致部分纹理或噪声被误标注为边缘类别，MIOU只有81.54%。边缘检测辅助监督需要设置合适的损失权重，过低则无法提供边缘检测足够的关注来强化空间细节，但模型主体任务是语义分割任务，过高会加重边缘检测对主干网络参数的影响，使模型过于偏向边缘检测任务，0.4的损失权重导致性能降低了很多。本文方法将边缘辅助监督损失权重设置为0.3、边缘类别权重设置为30时达到最优性能。

　　3.3 模块消融实验

　　为探索本文方法中各个模块对分割性能的影响，证明它们的有效性，模块有效性验证结果如表2所示，模型缺少任意模块都会导致分割性能下降。与仅使用ASPP的模型作比较，在ASPP基础上添加进行边缘感知的BMLA可以使MIOU提升0.27%。在没有精细的边缘特征的前提下直接添加AFFM特征融合模块反而使MIOU下降0.58%，因为粗糙的低维度特征信息杂乱，缺乏可信度，以它作为空间特征去和语义特征进行深度融合反而会影响判断。当同时引入2个模块，粗糙的低维特征得到边缘特征的强化，MIOU上升0.5%。实验证明，本文模型的所有模块都是必不可少且有效的。

　　| 方法 | MIOU(SS) | MIOU(MS) |

　　| ASPP | 80.97 | 82.03 |

　　| ASPP+BMLA | 81.45 | 82.30 |

　　| ASPP+AFFM | 80.57 | 81.45 |

　　| ASPP+BMLA+AFFM | 81.55 | 82.53 |

　　3.4 Cityscapes测试结果

　　Cityscapes数据集对城市道路景观图像的19个对象类别进行了仔细的标注，该数据集包含5000张精细标注的图像，其中有2975张和500张图像分别用于训练和验证。

　　表3展示了本文方法和其他主流方法的模型性能对比，本文提出的基于边缘感知的语义分割算法MIOU达到82.53%，在所列的所有对比方法中取得最高性能。UPerNet采用U型结构，通过逐步融合低维度特征来提取空间信息。然而，其提取的空间信息相对粗糙，与本文有针对性地提取语义边缘的方法相比，MIOU低了2.07%。相较于同样使用ASPP模块的Deeplabv3+，本模型通过边缘检测辅助语义分割，在单尺度上MIOU提升了0.58%，在多尺度上提升了0.51%。与采用注意力机制的CCNet和DANet相比，本文将注意力机制应用于特征融合，构建了语义和空间的长距离依赖关系，使得MIOU领先约1%。SETR、Segmenter和StructToken使用Transformer编码器完全替代卷积主干网络，能够有效捕捉全局上下文信息。上述模型形成了一种稠密的图像表示，其中，颜色、形状和纹理信息都在解码器一起处理。本文从语义和边缘2个方向提取特征，信息得到解耦和针对性分析，因此，在该数据集上MIOU表现优于它们。此外，与采用边缘感知的模型相比，本文模型的性能也显示出明显优势，这些模型的性能普遍高于未采用边缘感知的模型，这进一步证明了基于边缘感知的思想对语义分割效果有提升作用。

　　| UPerNet [29] | Resnet101 | 512×1024 | ECCV2018 | - | 79.40 | 80.46 |

　　| DeepLabV3+ [5] | Resnet101 | 512×1024 | CVPR2018 | - | 80.97 | 82.03 |

　　| DANet [8] | Resnet101 | 512×1024 | CVPR2019 | - | 80.41 | - |

　　| CCNet [9] | Resnet101 | 512×1024 | ICCV2019 | - | 78.87 | 79.90 |

　　| SETR-PUP [11] | VIT-L/16[10] | 768×768 | IEEE2021 | - | 79.34 | 82.15 |

　　| Segmenter [30] | VIT-L/16 | 768×768 | ICCV2021 | - | 79.10 | 81.30 |

　　| StructToken [31] | VIT-L/16 | 768×768 | IEEE2023 | - | 80.05 | 82.07 |

　　| GSCNN [19] | Resnet101 | 800×800 | IEEE2019 | √ | 80.80 | - |

　　| RPCNet [20] | Resnet101 | 894×894 | IEEE2020 | √ | 81.80 | 82.10 |

　　| 本文方法 | Resnet101 | 512×1024 | - | √ | 81.55 | 82.53 |

　　模型的分割效果如图5所示，图5e和图5f中的白色虚线边框展示了本文方法对比Deeplabv3+取得的进步。在第3列和第4列图像中，本文模型较Deeplabv3+获得了更加清晰的台阶边界，在自行车空隙中准确识别出汽车，并确保行人的分割类内一致性。在第5列图像中，即使对于“拍摄车辆”这种没有参与训练的语义类别，模型也能根据边缘特征将它区分出来，而不是将它直接划分到“道路”中去。

　　3.5 ADE20K测试结果

　　ADE20K是一个用于场景理解的密集像素注释数据集，它涵盖了室内和室外场景的各种注释。它有超过3000个物体类别，训练集包含25574张完整标注图像，验证集包含2000张完整标注图像。实验对其中150个常用类别进行分割。

　　表4展示了本文方法在ADE20K上的对比实验结果，实验的图像尺寸为512×512，本文方法的MIOU取得45.99%，分割效果优于DeepLabV3+和各类基于注意力机制的模型。在3.4节实验结果中，SETR、Segmenter和StructToken在Cityscapes数据集上的MIOU测评值低于本文模型，而在ADE20K上的表现却远远优于本文模型。经分析，本文采用的是全卷积结构模型，模型的性能受限于网络感受野，而ADE20K数据集被预测的类别有150个，且包含许多小目标物体，卷积结构不足以提供灵活的感受野来识别每个语义类别，而Transformer能够保持输入和输出空间的分辨率不变，其信息捕捉能力远胜于卷积结构。在Cityscapes数据集中，模型仅需要预测19个类，并且该数据集的图像较为精细，目标尺寸大，模型受语义类别的数量和尺寸的影响较低，于是基于边缘感知强化空间细节这一方法的优势得以显现。综上所述，本文方法在ADE20K数据集上具有一定竞争力。

　　| DeepLabV3+[5] | Resnet50 | 43.95 | 44.93 |

　　| DANet[8] | Resnet50 | 42.45 | 43.25 |

　　| CCNet[9] | Resnet50 | 42.08 | 43.13 |

　　| SETR[11] | VIT-L/16 | 50.45 | 52.06 |

　　| Segmenter[30] | VIT-L/16 | 51.80 | 53.60 |

　　| StructToken[31] | VIT-L/16 | 52.82 | 54.00 |

　　| 本文方法 | Resnet50 | 45.01 | 45.99 |

　　图6展示了本文方法在ADE20K上的部分分割结果，并和DeepLabV3+对比。2个模型整体的分割效果相近，但DeepLabV3+容易受阴影和相似语义类别的影响，图6第2行图像中，茅草屋和植物茎叶贴合，DeepLabV3+将植物茎叶误分类为茅草屋，而本文基于边缘感知的方法能很好地捕获类与类之间的不一致。

　　4 结束语

　　本文利用边缘检测辅助语义分割任务强化空间细节，解决了多数语义分割方法存在的边缘模糊问题。在该项工作中，语义和空间这2种信息需求分别由2个针对性的模块来实现，提取空间信息的边缘检测模块上设置有边缘辅助监督，用来实现边缘检测和语义分割的信息交互和语义共享。特征融合模块利用边缘图像2次强化类别边缘，这使空间特征既凸显了物体的整体轮廓又保留了内在纹理，该模块还使用注意力机制进行特征融合，增强了分割类内一致性。本文方法在Cityscapes数据集和ADE20K数据集上都具有不错的表现。2个特征提取模块还具备较好的扩展性，只需将优秀的语义分割方法和边缘检测方法应用到2个特征提取模块就能获得更高的分割性能。但该方法仍然存在着一定的不足，2种技术的交互带来了较大的参数量，基于边缘感知辅助语义分割的思想需要进一步探索和研究。

　　参考文献

　　[1] 田启川，孟颖. 卷积神经网络图像语义分割技术[J]. 小型微型计算机系统，2020，41(6)：1302-1313.

　　[2] LONG J，SHELHAMER E，DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston，MA，USA：IEEE，2015：3431-3440.

　　[3] ZHAO H，SHI J，QI X，et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：6230-6239.

　　[4] CHEN L C，PAPANDREOU G，KOKKINOS I，et al. DeepLab: Semantic image segmentation with deep convolutional nets，atrous convolution，and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，40(4)：834-848.

　　[5] CHEN L C，ZHU Y，PAPANDREOU G，et al. Encoder-decoder with Atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision. Munich，Germany：Springer，2018：801-818.

　　[6] PENG C，ZHANG X，YU G，et al. Large kernel matters-improve semantic segmentation by global convolutional network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：1743-1751.

　　[7] 金汝宁，赵波，李洪平. 一种轻量化非结构化道路语义分割神经网络[J]. 四川大学学报(自然科学版)，2023，60(1)：66-73.

　　[8] FU J，LIU J，TIAN H，et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach，CA，USA：IEEE，2019：3141-3149.

　　[9] HUANG Z，WANG X，HUANG L，et al. CCNet: Criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul，Korea(South)：IEEE，2019：603-612.

　　[10] DOSOVITSKIY A，BEYER L，KOLESNIKOVA A，et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-09-14]. https://doi.org/10.48550/arXiv.2010.11929.

　　[11] ZHENG S，LU J，ZHAO H，et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Kuala Lumpur，Malaysia：IEEE，2021：6881-6890.

　　[12] RONNEBERGER O，FISCHER P，BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich，Germany：Springer，2015：234-241.

　　[13] ZHANG Z，ZHANG X，PENG C，et al. ExFuse: Enhancing feature fusion for semantic segmentation[C]//Proceedings of the European Conference on Computer Vision. Munich，Germany：Springer，2018：273-288.

　　[14] POMAX S，RIBA E，SAPPAA. Dense extreme inception network: towards a robust CNN model for edge detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Snowmass，CO，USA：IEEE，2020：1912-1921.

　　[15] DENG R，LIU S. Deep structural contour detection[C]//Proceedings of the 28th ACM International Conference on Multimedia. New York，USA：Association for Computing Machinery，2020：304-312.

　　[16] PU M，HUANG Y，LIU Y，et al. EDTER: Edge detection with transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans，LA，USA：IEEE，2022：1392-1402.

　　[17] BERTASIUS G，SHI J，TORRESANI L. Semantic segmentation with boundary neural fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，Nevada，USA：IEEE，2016：3602-3610.

　　[18] LING J，MILANA I，SHEN C，et al. RefineNet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：5168-5177.

　　[19] TAKIKAWA T，ACUNA D，JAMPANI V，et al. Gated-SCNN: Gated shape CNNs for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul，Korea(South)：IEEE，2019：5228-5237.

　　[20] ZOU Z，XIANG Z，CHEN Y，et al. Boundary-aware CNN for semantic segmentation[J]. IEEE Access，2019(7)：114520-114528.

　　[21] ZHEN M，WANG J，ZHOU L，et al. Joint semantic segmentation and boundary detection using iterative pyramid contexts[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，WA，USA：IEEE，2020：13663-13672.

　　[22] RUSSAKOVSKY O，DENG J，SU H，et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision，2015(115)：211-252.

　　[23] HE K，ZHANG X，REN S，et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，Nevada，USA：IEEE，2016：770-778.

　　[24] 姚庆安，张鑫，刘力鸣，等. 融合注意力机制和多尺度特征的图像语义分割[J]. 吉林大学学报(理学版)，2022，60(6)：1383-1390.

　　[25] 董子昊，邵秀丽. 多类别的边缘感知方法在图像分割中的应用[J]. 计算机辅助设计与图形学学报，2019，31(7)：1075-1085.

　　[26] YU C，WANG J，PENG C，et al. BiSeNet: Bilateral segmentation network for real-time semantic segmentation[C]//Proceedings of the European Conference on Computer Vision. Munich，Germany：Springer，2018：325-341.

　　[27] CORDTS M，OMRAN M，RAMOS S，et al. The Cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，Nevada，USA：IEEE，2016：3213-3223.

　　[28] ZHOU B，ZHAO H，PUIG X，et al. Semantic understanding of scenes through the Ade20k dataset[J]. International Journal of Computer Vision，2019，127：302-321.

　　[29] XIAO T，LIU Y，ZHOU B，et al. Unified perceptual parsing for scene understanding[C]//Proceedings of the European Conference on Computer Vision. Munich，Germany：Springer，2018：418-434.

　　[30] STRUDEL R，GARCIA R，LAPTEV I，et al. Segmenter: Transformer for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal，QC，Canada：IEEE，2021：7242-7252.

　　[31] LIN F，LIANG Z，WU S，et al. Struct token: Rethinking semantic segmentation with structural Prior[J]. IEEE Transactions on Circuits and Systems for Video Technology，2023，30(10)：5655-5663.

查阅更多的理工论文文章