新智元报道
编辑:LRST
【新智元导读】MICAS是一种专为3D点云上下文学习设计的多粒度采样方法,通过任务自适应点采样和查询特定提示采样,提升模型在点云重建、去噪、配准和分割等任务中的稳健性和适应性,显著优于现有技术。
3D点云处理(PCP)涉及多种任务,如分割、去噪、配准、重建等,传统方法通常是为每个任务设计专用模型,导致过程繁杂、成本高昂。
虽然多任务学习(MTL)能缓解模型数量问题,但在任务冲突、参数调优方面仍存在挑战。
近年来兴起的In-Context Learning(ICL,上下文学习)技术,是指大型语言模型在不进行显式参数更新的情况下,仅通过输入中的示例(即上下文信息)来完成新的任务。
在3D点云领域,由于点云数据本身具有非结构化和无序性,因此点云的采样策略成为实现有效上下文学习的关键因素,不可忽视。
浙江大学、内华达大学里诺分校的研究人员提出首个专为点云上下文学习设计的多粒度自适应采样机制MICAS,包含两个关键模块:任务自适应点采样(Task-adaptive Point Sampling)与查询特定提示采样(Query-specific Prompt Sampling),分别从点级(point-level)和提示级(prompt-level)两个维度出发,有效提升ICL在3D点云任务中的稳健性与适应性。
论文链接:https://arxiv.org/abs/2411.16773
MICAS实现
任务自适应点采样
利用任务相关的信息,优化每个点的采样过程,以提高不同任务间(例如去噪 、分割、配准、 重建)对点的选择精度。
1. 提示理解(Prompt Understanding):使用PointNet作为编码器,从输入prompt中提取出任务特征,再将输入点云和目标点云的特征进行拼接,生成任务特征。
2. Gumbel采样(Gumbel Sampling):使用Gumbel-softmax实现可微分的采样,将任务特征和当前点云的特征结合,通过正态化的sampling weights生成最终的采样结果,让模型在训练期间得到更高的效能。
查询特定提示采样
在同一个任务下,对不同的查询提高提示的相关性,来解决任务内部的敏感性。
伪标签生成:利用ICL模型来生成预测结果,评估其与真实值之间的差异,将模型性能作为伪标签;
采样分值计算:根据不同候选提示对每个查询点云计算采样分值,选择分值最高的提示作为最终输入。
损失函数:用List-wise ranking loss优化提示的选择顺序,提高模型的整体性能。
实验分析
评估数据集:使用ShapeNet In-Context Dataset,该数据集包含了多种「输入-目标」点云的对,以便进行全面的任务评估。
评估指标:使用Chamfer Distance(CD)和Mean Intersection over Union(mIOU)来衡量不同任务的性能。例如,CD用于重建、去噪和配准任务,mIOU用于分割任务。
研究人员验证了文中所提出的任务自适应点采样(Task-adaptive Point Sampling)与查询特定提示采样(Query-specific Prompt Sampling)两个模块的有效性,设计并开展了多组消融实验。
同时,为进一步验证所提方法 MICAS 的鲁棒性与通用性,在多种点云深度学习模型上进行了测试。
实验结果表明:任务自适应点采样模块在点云去噪(Denoising)与部件分割(Part Segmentation)任务中带来显著性能提升,而查询特定提示采样模块则在点云重建(Reconstruction)与配准(Registration)任务中表现更加优越。
综合结果进一步印证了两种采样策略在不同任务中各具优势,分别从点级(point-level)与提示级(prompt-level)两个粒度对上下文构建形成互补效应,共同推动模型性能的全面提升。
模型训练和推理可视化
实验结果对比可视化
研究人员从中心点采样质量与模型预测性能两个维度对比了所提MICAS方法与Baseline方法。
实验结果表明,MICAS所采用的自适应采样策略在中心点选择上优于Baseline中常用的最远点采样(Farthest Point Sampling, FPS),从而进一步带来了更优的下游任务预测效果。
重建任务的采样结果对比
去噪任务的采样结果对比
配准任务的采样结果对比
分割任务的采样结果对比
参考资料:
https://arxiv.org/abs/2411.16773