基于偏置注意力机制的轻量级点云分类模型

　　3D点云能提供准确的3D几何信息，因此在机器人、自动驾驶和增强现实等领域中得到了广泛应用。目前点云分类模型通过不断增加参数量来提升性能，这一趋势导致了模型复杂性和计算时间的增加。针对上述问题，设计了一种基于偏置注意力机制的轻量级点云分类模型Point-PT。该模型通过简单的位置编码和线性层构造局部特征聚合模块来提取点云的局部特征，并嵌入偏置注意力机制，以此筛选局部特征并提取关键信息。实验结果表明：当模型参数量仅为0.4 Mbit时，相较于PointMLP计算速度加快了12倍，在参数量方面减少为原来的1/32，总体准确率为92.9%;当模型参数量为0.8 Mbit时，总体准确率提升至93.9%，相较于PointNet++、PCT(Point cloud transformer)、PointPN与DGCNN (Dynamic graph convolutional neural network)，分别提高了2.0、0.7、0.1、1.0百分点。实验结果表明该模型具有较高的准确率和较低的模型复杂性。

所提网络结构

　　关键词：点云分类;局部特征聚合;偏置注意力机制;轻量级

　　论文《基于偏置注意力机制的轻量级点云分类模型》发表在《激光与光电子学进展》，版权归《激光与光电子学进展》所有。本文来自网络平台，仅供参考。

　　1 引言

　　3D数据广泛应用于机器人[1]、自动驾驶[2]和增强现实[3]等领域。与规则排列的2D图像不同，点云数据由一系列无序排列的点结构组成，这使得标准的深度学习架构不能直接应用到3D数据中。

　　为了应对这一挑战，许多学者针对神经网络输入数据的格式提出多种创新性的解决方案。在基于多视图的研究方法中，MVCNN(Multi-view convolutional neural network)把从不同视角得到的物体2D投影作为训练数据，并将投影图像特征聚合成一个能有效表示3D形状的描述符，但无法确定哪一张投影图像是最重要的[4]。相较之下，View-GCN(Graph convolutional network)使用动态图卷积网络进行分层学习，利用视图间关系信息聚合多视图特征，解决了如何有效融合多视图特征的问题，通过局部和非局部操作，以及选择性视图采样策略，提升网络的3D形状识别性能[5]。

　　基于体素的研究方法中：Zhou等[6]提出了一种端到端的深度学习架构VoxelNet，该架构将3D空间划分为体素，并使用一种新颖的体素特征编码(VFE)方法对每个体素内的点进行编码，编码后的体素特征通过卷积层和区域建议网络进行处理，以完成3D目标检测任务，但计算效率较低;Choy等[7]采用稀疏卷积技术，即卷积核仅在占用的体素上进行计算，可以进一步降低计算量和减少存储器的内存占用。

　　基于多视图的点云分割方法容易受到投影角度的影响，存在遮挡问题，并且在投影过程中丢失了大量的空间几何特征;基于体素的点云分割方法空间复杂度较高，需要占用较多内存和计算资源，并且在点云体素化处理过程中，较小的物体可能被划分到同一个体素中，导致特征信息丢失，从而影响小物体的检测精度[8]。这两种方法都需要对点云进行一定的转换，从而导致特征信息丢失，未能充分利用点云的属性。

　　基于点的深度学习方法，通过直接处理点云数据以减少特征转换过程中的信息丢失。Qi等[9]提出了PointNet模型，通过使用多层感知器(MLP)、最大池化(Maxpool)，以及刚性变换来应对点云的无序性，开创了直接对点云特征进行学习的先河;2017年，该团队在PointNet模型的基础上，引入局部特征提取模块，以更好地捕捉点云数据的局部结构信息，从而进一步加强模型的性能和适应能力，但模型仅考虑高维信息，忽略了低维特征[10];徐婕等[11]通过将各个自注意力(SA)层的特征进行拼接来减少训练过程中的信息丢失。后续提出的模型大多依照PointNet++的架构进行搭建，通常包含点云下采样、局部邻域查询、编码模块、上采样差值和解码模块等。PointNeXt重新审视PointNet++架构，通过采用更先进的训练策略，如数据增强和优化技术，将PointNet++的准确率由77.9%提高至87.7%[12]。然而，为了提高性能，模型架构不断添加可学习的参数，例如PointMLP的参数量达到了12.6 Mbit，这显著增加了网络的复杂性[13]。对此，Zhang等[14]提出了3D点云分析网络Point-NN，由不可学习组件组成，参数量为0，准确率可达81.8%。

　　随着Transformer模型在自然语言处理(Natural language processing,NLP)领域取得显著进展，许多学者开始对网络模型进行改进，以适应点云数据的特性[15]。模型PCT (Point cloud transformer)将Transformer应用到3D点云数据中，通过SA模块计算特征和输入之间的偏置量，以替代SA特征，避免点云刚性变换带来的影响，模型达到了93.2%的准确率[16]。田晟等[17]通过将偏置注意力机制与多特征融合模块相结合，增强特征提取能力。

　　目前大多数的网络架构具有庞大数量的可学习参数，对此，本文提出了一种基于偏置注意力机制的轻量级点云分类模型Point-PT。模型中有一种新设计的局部特征聚合模块，该模块由三角函数位置编码、不可学习组件和线性层等结构构成，从而有效减少了模型的参数量和计算复杂度。该模块更加关注模型的高频几何特征，与模型中学习到的高级语义特征互为补充。此外，采用相对特征增强模型的鲁棒性，能够使其更好地捕捉点云数据的局部几何信息，以应对物体的刚性变换。接着，引入注意力机制提取特征之间的相关性并保留关键信息。Point-PT模型在参数量较少的情况下仍能取得较高的分类准确率，解决了现有模型存在的复杂度高和计算速度慢等问题，具有重要的实际应用价值。

　　2 网络架构

　　2.1 模型总体结构

　　本文提出一种结合偏置注意力机制的轻量级点云分类网络结构。为了减少网络中不必要的参数学习，尽可能采用不可学习的模块和参数量较少的线性层。为了简单起见，直接采用$(x, y, z)$坐标作为网络输入，并通过线性层对特征进行升维。阴影矩形框主要由局部特征聚合和偏置注意力模块组成，这些模块的重复次数$N$可根据实际需求设置，以$N=2$为例搭建网络。前者通过点云最远点降采样和局部邻域查询、局部特征聚合(Local feature aggregation)模块，以及池化操作来完成局部特征的提取;后者则通过偏置注意力机制赋予各中心点不同的权重，以更有效地利用局部信息。之后通过全局池化操作保留高层次信息，以避免点云的无序性。最终，特征将被输入到全连接层，以获取$K$类的分类分数。

　　网络架构中，LBRD(Linear, BatchNorm, ReLU, and dropout layer)包括线性层、归一化层、激活函数，以及正则化层。其中，线性层主要用于改变特征的通道数，归一化层可以增强模型的泛化能力，激活函数可以增强模型的非线性拟合能力，正则化层能够避免模型出现过拟合现象。

　　2.2 局部特征聚合

　　受PointNN的Local geometry aggregation特征提取模块的启发，并对其进行改进，将其作为本文网络架构中的局部特征聚合模块。局部特征聚合模块主要由两部分组成：几何特征提取和线性层。输入点云和特征表示为${p_{i}, f_{i}}_{i=1}^{(M)}$，$p_{i}=(x_{i}, y_{i}, z_{i}) in R^{1×3}$，$f_{i} in R^{1×C}$，其中$M$代表输入点云的数量，$C$代表输入点云特征的维度。经过Embedding层后，点特征表示为

　　$$left{f_{i} ight}_{i=1}^{(M)}=phileft{p_{i} ight}_{i=1}^{(M)}$$

　　式中: $phi$为可学习的MLP层; $i$为点云数量的索引。通过最远点采样(Sampling)与$k$近邻搜索(Glouping)后，得到中心点和邻近点的特征，并将其输入到线性层中。本文将邻近点与中心点的特征相减，得到相对特征。相较于直接拼接的方式，采用相对特征进行信息提取不容易受到刚性变换的影响，通常鲁棒性更强，可以更好地捕捉点云数据的局部几何信息。将中心点特征$f_{c}$与相对特征$f_{s}$拼接后，获得更高维的局部几何特征$f_{ij}$，具体可表示为

　　$$left{left{f_{i} ight}_{i=1}^{left(frac{M}{2} ight)},left{f_{j} ight}_{j=1}^{(k)} ight}=k_{KNN}left[FPSleft(left{p_{i}, f_{i} ight}_{i=1}^{(M)} ight) ight]$$

　　$$f_{i j}=left{h_{ heta}left(f_{i}, f_{j}-f_{i} ight) ight}_{j=1}^{(k)}$$

　　式中: $h_{Theta}$为线性层linear 1;FPS为最远点采样操作; KNN表示$k$近邻搜索,$k$为某个样本的邻近样本数; $c$为中心点特征数索引;$j$为相邻特征数索引。

　　为了减少可学习的参数，模型采用三角函数分别对点云$x、y、z$进行位置编码，之后进行拼接，具体可表示为

　　$$PosEleft(p_{i} ight)= Concat left[f_{i}^{(x)}, f_{i}^{(y)}, f_{i}^{(z)} ight]$$

　　式中: $Pos E(p_{i}) in R^{1×C}$，$f_{i}^{(x)}$、$f_{i}^{(y)}$和$f_{i}^{(z)} in R^{1×frac{C}{3}}$代表对3个轴坐标的位置编码。以$f_{i}^{(x)}$为例，其位置编码为

　　egin{cases}

　　f_{i,(2 m)}^{(x)}=sin left[alpha x_{i} / eta^{left(frac{6 m}{C} ight)} ight]

　　f_{i,(2 m+1)}^{(x)}=cos left[alpha x_{i} / eta^{left(frac{6 m}{C} ight)} ight]

　　end{cases}

　　式中: $m$为维度索引; $alpha$和$eta$可以用于控制幅度和波长。

　　为了指示局部区域内$k$个邻近点的空间分布，通过相对位置编码对每个$f_{cj}$进行加权。用均值和标准差对它们的坐标进行归一化，表示为${Delta p_{j}}_{j=1}^{(k)}$，并通过等式嵌入它们。将$k$个相邻特征加权为

　　$$f_{i j}^{(w)}=left[f_{i j}+PosEleft(Delta p_{j} ight) ight] cdot PosEleft(Delta p_{j} ight)$$

　　由于$f_{ij}$仅仅是两个$C$维特征的拼接，这导致二者的频率不一致。因此，在上式中，通过加法操作赋予$f_{ij}^{(w)}$与$2C$维度相对应的频率，随后再通过乘法进行加权。最终，经过线性层和池化操作获得各中心点的局部特征${f_{c}^{(1)}}_{c=1}^{(frac{M}{2})}$

　　$$f_{c}^{(1)}=Maxpoolleft{h_{ heta'}left[f_{c j}^{(w)} ight] ight}+Avepoolleft{h_{ heta'}left[f_{c j}^{(w)} ight] ight}$$

　　式中:Maxpool、Avepool分别表示最大池化和平均池化; $h_{ heta'}$表示线性层linear 2。

　　2.3 偏置注意力机制

　　在通过局部特征聚合模块获得中心点的特征后，由于各中心点包含特征的重要程度不同，需要为中心点赋予不同的权重。本文采用偏置注意力机制，使网络能够快速学习、提取关键信息并过滤不重要的特征。

　　在点云的Tranformer应用中，与自然语言处理类类似，均采用缩放点积注意力机制(Scaled dot-product attention)。通过应用一维卷积对输入特征进行处理，实现线性变换操作，从而得到对应的$Q、K、V$矩阵。首先，$Q$与$K$经过矩阵点乘获得注意力权重，并对其进行归一化，获得归一化权重。经过Softmax函数处理后，与$V$相乘获得特征$F_{SA}$，可表示为

　　$$F_{SA}=Softmaxleft(frac{Q cdot K^{ op}}{sqrt{d_{k}}} ight) cdot V$$

　　式中: $Q、K$和$V$分别为查询、键和值矩阵; $1/sqrt{d_{k}}$为缩放因子。

　　采用OA(Offset-attention)模块代替SA(Selfattention)，以此得到更好的性能。将原始特征与SA机制获得特征$F_{SA}$相减，经过LBR层，以代替SA特征，该过程可以表示为

　　$$F_{out }=LBRleft(F_{in }-F_{SA} ight)+F_{in }$$

　　式中: $F_{out}$为偏置注意力机制输出特征;LBR包括 linear、BatchNorm 和ReLU，$F_{in }$为输入特征。

　　3 实验与分析

　　3.1 数据集与评价指标

　　采用ModelNet40[18]数据集对模型进行评估测试。该数据集包含40个不同类别的12311个CAD (Computer-aided design)模型，其中训练集为9843个，测试集为2468个，每个模型均经过采样处理，选取1024个3D坐标作为网络的输入。这些模型来自家具、电器和器皿等领域。

　　为了衡量模型分类的效果，采用总体准确率(Overall accuracy,OA)和平均准确率(Mean accuracy, mAcc)作为评价指标。

　　egin{cases}

　　A_{OA}=frac{T}{N_{total }}

　　A_{mAcc}=frac{1}{N_{c}} sum_{a=1}^{N_{c}} frac{T_{a}}{N_{a}}

　　end{cases}

　　式中: $A_{OA}$和$A_{mAcc}$分别为总体和平均准确率; $T$为测试集中预测正确的样本数量; $T_{a}$为第$a$类预测正确的样本数量; $N_{total }$为测试集的总数; $N_{a }$为第$a$类测试集数量; $N_{c}$为测试集类别数量。

　　3.2 实验环境

　　实验采用Python语言在PyTorch框架下搭建，GPU采用NVIDIA GeForce RTX 2060 SUPER显卡 (显存为8 Gbit)。

　　软件配置：

　　GPU：NVIDIA GeForce RTX 2060 SUPER

　　CUDA：CUDA11.3

　　编程语言：Python 3.7.16

　　深度学习框架：PyTorch 1.12.1

　　在训练过程中，使用SGD(Stochastic gradient descent)优化器，设定权重衰减值为0.0005，初始学习率设定为0.01，通过余弦退火方法动态调整学习率，Dropout rate设定为0.5，批处理大小设置为32，训练总轮次为250轮。

　　在网络架构参数设置方面，输入值为降采样后的1024个点的3D坐标，$k$近邻算法中设置查找中心点附近40个点。最远点采样数表示为$M/(N+1)$，其中$N$为重复次数。

　　3.3 模型性能评估

　　为了全面评估模型性能，本文将模型与基于MLP、卷积神经网络(Convolutional neural network, CNN)、GCN，以及注意力机制(Attention mechanism)的方法进行比较。

　　ModelNet40数据集分类结果：

　　| Model | OA /% | mAcc /% |

　　| PointNet | 89.2 | 86.2 |

　　| PointNet++ | 91.9 | – |

　　| PointPN | 93.8 | – |

　　| PointConT | 93.5 | – |

　　| PointConv | 92.5 | – |

　　| DGCNN | 92.9 | 90.2 |

　　| LDGCNN | 92.9 | 90.3 |

　　| GAPointNet | 93.0 | 90.3 |

　　| Point Tranformer | 92.8 | – |

　　| PCT | 93.2 | – |

　　| Point-PT ($N=2$) | 92.9 | 89.7 |

　　| Point-PT ($N=3$) | 93.9 | 90.7 |

　　当$N=2$和$N=3$时，将Point-PT与现有模型进行对比分析。$N=2$时，总体准确率为92.9%，平均准确率为89.7%;当$N=3$时，$A_{OA}$和$A_{mAcc}$都提升了1.0百分点，在分类的总体准确度方面，所提模型相较于PointNet++、PointConv、LDGCNN、PCT分别提升2.0、1.4、1.0、0.7百分点。

　　通过正弦映射转换低维输入，有助于MLP在训练过程中有效学习高频特征[24]。Point-PT由于引入了大量三角函数位置编码，对高频特征更加敏感。高频几何图形通常表示边缘、角落及其他细粒度细节的空间区域，其中局部3D坐标的变化较大;而低频结构通常包括一些平坦、光滑的物体表面，其变化较为平滑。因此Point-PT取得了良好的分类精度，表明模型的有效性。

　　在$N=2$时分析模型性能，通过观察混淆矩阵，部分种类的分类准确率：

　　| PCT | 65 | 10 | 85 | 99 | 85 | 99 |

　　| Point-PT(N=2) | 70 | 10 | 85 | 98 | 87 | 100 |

　　部分预测值判别错误，如将花盆(flower pot)错误判别为栽种(plant)，将杯子(cup)错误判别为瓶子(vase)。判别错误的主要原因在于二者形状过于相似。在cup、plant、床(bed)样本上所提模型的分类准确率要优于PCT，而对花盆的预测二者的准确率都较低。

　　训练过程中，当epoch达到25轮时，OA已经达到90.000%;当epoch达到203轮时，OA进一步提升至92.868%。此外，经过220轮的训练，损失率和模型的精度趋于收敛。

　　3.4 模型复杂度评估

　　模型参数、耗时与精度对比：

　　| PointNet | 89.2 | 3.65 | 62 |

　　| PointNet++ | 91.9 | 1.73 | 64 |

　　| PointPN | 93.8 | 0.80 | 31 |

　　| DGCNN | 92.9 | 1.89 | 94 |

　　| PCT | 93.2 | 3.10 | 73 |

　　| PointMLP | 94.1 | 12.60 | 182 |

　　| Point-PT(N=2) | 92.9 | 0.36 | 15 |

　　| Point-PT(N=3) | 93.9 | 0.87 | 30 |

　　与12.60 Mbit参数的大规模PointMLP模型相比，Point-PT$(N=3)$仅包含0.87 Mbit的参数量，在ModelNet40上的准确率基本相同，但参数量减少至原来的1/14，推理速度加快至原来的6倍。Point-PT$(N=2)$在ModelNet40上获得了与DGCNN相当的性能，同时仅包含后者模型参数量19%的参数量，并且推理速度加快至原来的6倍。Point-PT是一种轻量化的网络模型，主要由不可学习组件(FPS、KNN、池化层、三角函数)，以及参数量较少的线性层组成，这意味着它占用的资源更少，同时在应用中拥有更快的推理速度。

　　3.5 消融实验

　　邻近点数$k_{N}$是模型的关键参数，用于确定局部特征聚合模块的感受野。在$N=2$条件下测试不同$k_{N}$：

　　| $k_N$ | 20 |30|35|40|

　　| OA/% |92.5|92.5|92.6|92.9|

　　| mAcc/% |89.7|90.0|90.1|89.0|

　　| Time/s |15.0|13.0|14.0|12.0|

　　较小的$k_{N}$值会导致邻域感知范围过小，从而限制了特征提取的充分性，对分类准确度产生负面影响。由于ModelNet40由CAD模型直接生成，所以较大的$k_{N}$值并不会引入噪声，但会增加模型参数量并降低预测效率。当$k_{N}=40$时，Point-PT分类准确率达到最优，同时模型具有较快的推理速度。

　　消融实验(√完整模型;×移除偏置注意力;××移除局部特征聚合)：

　　|N=2|92.9(0.36M)|92.6(0.27M)|90.8(0.30M)|

　　|N=3|93.9(0.87M)|92.6(0.51M)|91.1(0.65M)|

　　|N=4|93.7(2.77M)|92.7(1.33M)|91.4(1.88M)|

　　随着网络深度的不断加深，模型提取高维特征的能力增强。仅仅增加深度并不会显著提高整体准确率，反而可能导致浅层特征信息的丢失，造成准确率下降。移除偏置注意力模块后，模型准确率下降，证明添加偏置注意力模块的必要性;去除局部特征聚合模块后精度明显下滑，说明局部特征聚合模块能够有效捕捉3D点云的高频几何特征，和高层语义特征互补提升性能。

　　4 结论

　　为了解决现有点云分类模型存在诸如高复杂度和低计算速度等问题，提出了一种基于偏置注意力机制的轻量级点云分类模型Point-PT。还提出了局部特征聚合模块，通过嵌入三角函数编码，减少了模型的可学习参数量。Point-PT $(N=3)$相较于PointMLP，仅使用了后者约1/14的参数量，而总体准确率仅仅降低了0.2百分点。在ModelNet40数据集上，当Point-PT模型的参数数量约为0.4 Mbit时，它的整体准确率达到了92.9%;在参数量约为0.8 Mbit时，总体准确度达93.9%，平均准确度达90.7%。通过在ModelNet40数据集上与现有模型的对比，有效地验证了本文模型的性能优势。模型中增加的偏置注意力模块能够有效提取特征之间的相关性并保留关键信息。消融实验结果进一步证明了Point-PT模型的合理性。Point-PT模型具有轻量级、高精度和低复杂性等特点，在小型化设备和对实时性要求较高的场景中具备广泛的适用性。

　　参考文献

　　[1] 彭凯, 饶钰涵, 肖艳军, 等. 双目视觉空间定位系统中点云目标融合分割算法[J]. 中国惯性技术学报, 2023, 31(8): 777-782, 789.

　　Peng K, Rao Y H, Xiao Y J, et al. Point cloud target fusion segmentation algorithm in binocular visual spatial positioning system[J]. Journal of Chinese Inertial Technology, 2023, 31(8): 777-782, 789.

　　[2] 缪建起, 王宏涛, 田普光. 整合图卷积与PointNet的机载激光雷达点云分类[J]. 激光与光电子学进展, 2022, 59(22): 2228003.

　　Miao J Q, Wang H T, Tian P G. Airborne light detection and ranging point cloud classification via graph convolution and PointNet integration[J]. Laser & Optoelectronics Progress, 2022, 59(22): 2228003.

　　[3] Chen J D, Kira Z, Cho Y K. Deep learning approach to point cloud scene understanding for automated scan to 3D reconstruction[J]. Journal of Computing in Civil Engineering, 2019, 33(4): 04019027.

　　[4] Su H, Maji S, Kalogerakis E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE Press, 2015: 945-953.

　　[5] Wei X, Yu R X, Sun J. View-GCN: view-based graph convolutional network for 3D shape analysis[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 1847-1856.

　　[6] Zhou Y, Tuzel O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 4490-4499.

　　[7] Choy C, Gwak J, Savarese S. 4D spatio-temporal ConvNets: minkowski convolutional neural networks [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 3070-3079.

　　[8] 文沛, 程英蕾, 余旺盛. 基于深度学习的点云分类方法综述[J]. 激光与光电子学进展, 2021, 58(16): 1600003.

　　Wen P, Cheng Y L, Yu W S. Point cloud classification methods based on deep learning: a review[J]. Laser & Optoelectronics Progress, 2021, 58(16): 1600003.

　　[9] Charles R Q, Hao S, Mo K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 77-85.

　　[10] Charles R Q, Yi L, Hao S, et al. Pointnet++ : deep hierarchical feature learning on point sets in a metric space [C]∥NIPS′17: Proceedings of the 31st International Conference on Neural Information Processing Systems, December 4, 2017, Red Hook, NY, United States. New York: ACM Press, 2017: 5099-5108.

　　[11] 徐婕, 刘慧, 沈跃, 等. 基于改进PointNet++模型的苗圃树木点云分类与分割[J]. 中国激光, 2024, 51(8): 0810001.

　　Xu J, Liu H, Shen Y, et al. Point clouds classification and segmentation for nursery trees based on improved PointNet++ model[J]. Chinese Journal of Lasers, 2024, 51(8): 0810001.

　　[12] Qian G C, Li Y C, Peng H W, et al. PointNeXt: revisiting PointNet++ with improved training and scaling strategies[EB/OL]. (2022-06-09)[2024-08-09]. https://arxiv.org/abs/2206.04670.

　　[13] Ma X, Qin C, You H X, et al. Rethinking network design and local geometry in point cloud: a simple residual MLP framework[EB/OL]. (2022-11-29)[2024-09-25]. https://doi.org/10.48550/arXiv.2202.07123.

　　[14] Zhang R R, Wang L H, Wang Y L, et al. Parameter is not all you need: starting from non-parametric networks for 3D point cloud analysis[EB/OL]. (2023-05-10)[2024-09-25]. https://doi.org/10.48550/arXiv.2303.08134.

　　[15] Zhao H S, Jiang L, Jia J Y, et al. Point transformer[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2021: 16239-16248.

　　[16] Guo M H, Cai J X, Liu Z N, et al. PCT: point cloud transformer[J]. Computational Visual Media, 2021, 7(2): 187-199.

　　[17] 田晟, 宋霖, 赵凯龙. 基于偏移注意力机制和多特征融合的点云分类[J]. 华南理工大学学报(自然科学版), 2024, 52(1): 100-109.

　　Tian S, Song L, Zhao K L. Point cloud classification based on offset attention mechanism and multi-feature fusion[J]. Journal of South China University of Technology (Natural Science Edition), 2024, 52(1): 100-109.

　　[18] Wu Z R, Song S R, Khosla A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE Press, 2015: 1912-1920.

　　[19] Liu Y H, Tian B, Lv Y S, et al. Point cloud classification using content-based transformer via clustering in feature space[J]. IEEE/CAA Journal of Automatica Sinica, 2024, 11(1): 231-239.

　　[20] Wu W X, Qi Z A, Li F X. PointConv: deep convolutional networks on 3D point clouds[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 9613-9622.

　　[21] Wang Y, Sun Y B, Liu Z W, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146.

　　[22] Zhang K G, Hao M, Wang J, et al. Linked dynamic graph CNN: learning on point cloud via linking hierarchical features[EB/OL]. (2019-08-06)[2024-09-25]. https://doi.org/10.48550/arXiv.1904.10014.

　　[23] Chen C, Fragonara L Z, Tsourdos A. GAPointNet: graph attention based point neural network for exploiting local feature of point cloud[J]. Neurocomputing, 2021, 438: 122-132.

　　[24] Tancik M, Srinivasan P P, Mildenhall B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[EB/OL]. (2020-06-18)[2024-08-09]. https://arxiv.org/abs/2006.10739v1.

查阅更多的电子论文文章