【论文阅读】SAM-CP:将SAM与组合提示结合起来的多功能分割

news/2025/2/25 0:25:16

导言

近年来,视觉基础模型的快速发展推动了多模态理解的进步,尤其是在图像分割任务中。例如,Segment Anything模型(SAM)在图像Mask分割上表现出色,但在语义及实例分割方面仍存在局限。本文提出的SAM-CP,通过引入可组合的提示机制,显著增强了模型在复杂场景下的语义理解能力。这一方法不仅提高了分割任务的灵活性和准确性,也为视觉模型在开放词汇和实例识别中的应用提供了新的思路,使其在多种视觉任务中具有更广泛的适用性。

1 论文简介

论文题目:
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation

研究领域:
计算机视觉、语义分割实例分割多模态

论文作者:
Pengfei Chen, Lingxi Xie, Xinyue Huo, Xuehui Yu, Xiaopeng Zhang, Yingfei Sun, Zhenjun Han, Qi Tian

论文链接:
https://arxiv.org/abs/2407.16682

论文来源;
ICLR 2025

2 论文主要方法

2.1 理论概念

本文提出SAM-CP(SAM-Composable Prompts)方法,通过组合两组提示来执行分割任务。

提示一,判断SAM分割的Mask是否与给定的文本标签对齐。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

提示二,判断同一类别下的Mask是否属于同一实例。

  • 针对已经通过提示一标记的Mask,计算Mask组之间的相似度
  • 依据相似度将Mask组进一步分组,以确定相同实例的目标集合
  • 遍历得到的补丁集合,首先进行语义标注,然后进一步将同一实例进行分组,实现语义分割实例分割
    在这里插入图片描述

2.2 网络架构

  1. Patch Encoder:负责将Mask转换成特征向量
  2. Unified Affinity Decoder:处理相似性匹配,合并相似的
  3. Mask Affinity Calculation:计算Mask组之间的亲和力
  4. Category Assign:进行最终的Mask组分类
    在这里插入图片描述

2.3 实验效果

在这里插入图片描述

3 论文针对的问题

SAM模型在高效分割视觉内容方面表现出色,但在语义分割实例分割任务中仍面临挑战。具体而言,SAM可能会将同一对象过度分割为多个补丁,导致很难确定哪些补丁属于同一实例。此过度分割现象不仅增加了后续标签和处理的复杂性,也影响了模型在具体应用中对场景的准确理解和识别。

尽管当前有多种方法尝试改进SAM在分割任务中的表现,但大部分方法依赖于其他单独的模型进行Mask的提取,从而限制了SAM作为基础模型的独立和有效性。这种方式会降低SAM的作用,不利于其在更复杂语义任务中的灵活应用,进而影响整个视觉识别系统的性能和效率。
在这里插入图片描述
在这里插入图片描述

4 论文创新点

本文的创新点主要体现在提出了一种名为SAM-CP的全新方法,该方法通过引入可组合的提示(composable prompts)来增强SAM模型的语义分割实例分割能力。其创新包括:

  1. 两类型提示的设计:通过设计两种提示,Prompt I用于判断SAM产生的补丁是否与给定的文本标签对齐,而Prompt II用于确定两个补丁是否属于同一实例。这样的设计优化了对补丁的分组与标注,解决了SAM在实例分割任务中的过度分割问题。

  2. 统一的亲和力框架:本文建立了一个统一的亲和力框架,结合不同的提示输出,不仅提升了语义分割实例分割的准确性,还实现了更高效的训练和推理。这种方法能够处理开放词汇和闭合领域的分割任务,拓展了SAM在多模态理解中的应用范围。

总结

  1. SAM-CP增强了SAM模型的语义分割实例分割的能力,推动图像大模型的进一步发展提供了新思路。
  2. 在具体的应用场景内,缺乏对应文本标签,如何有效地将特定领域内的文本标签与图像掩码进行匹配是未来研究的挑战。

http://www.niftyadmin.cn/n/5864878.html

相关文章

Spring5框架八:整合Mybatis

精心整理了最新的面试资料&#xff0c;有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 1、导入相关的jar包 <dependencies><!-- https://mvnrepository.com/artifact/org.springframework/spring-webmvc --><dependency><groupId>…

java后端开发day19--学生管理系统升级

&#xff08;以下内容全部来自上述课程&#xff09; 1.要求及思路 1.总体框架 2.注册 3.登录 4.忘记密码 2.代码 1.javabean public class User1 {private String username;private String password;private String personID;private String phoneNumber;public User1() {}…

【多语言生态篇六】【DeepSeek×Node.js:WebSocket实时服务从入门到“超神“指南(史诗级万字拆解)】

各位WebSocket老司机们系好安全带!今天我们要把《DeepSeekNode.js:WebSocket实时服务》这本"武功秘籍"揉碎了掰开了讲。从单机玩具到百万级并发,从握手原理到熔断限流,咱们边撸代码边开车,全程高能无尿点! 一、开篇暴击:WebSocket的"真香"现场 先来…

深度学习入门--神经网络

初学&#xff0c;若有错误&#xff0c;恳请指正。 目录 初学&#xff0c;若有错误&#xff0c;恳请指正。 3.1 从感知机到神经网络 3.1.1 神经网络的例子 3.1.2 复习感知机 3.1.3 激活函数登场 3.2 激活函数 3.2.1 sigmoid 函数 3.2.2 阶跃函数的实现 3.2.3 阶跃函数…

合理建模--最短路径

这道题目难就难在如何想到用最短路径来做 主要是这个题目不能用bfs来写&#xff0c;因为距离并不是1 狄克斯特拉算法很久没写了&#xff0c;有些地方生疏了 且这个题目需要记录三个信息&#xff0c;得用tuple 题目地址 int dx[] {0,0,1,-1};int dy[] {1,-1,0,0}; class Solut…

【漫话机器学习系列】103.学习曲线(Learning Curve)

学习曲线&#xff08;Learning Curve&#xff09;详解 1. 什么是学习曲线&#xff1f; 学习曲线&#xff08;Learning Curve&#xff09;是机器学习和深度学习领域中用于评估模型性能随训练过程变化的图示。它通常用于分析模型的学习能力、是否存在过拟合或欠拟合等问题。 从…

基于数据可视化学习的卡路里消耗预测分析

数据分析实操集合&#xff1a; 1、关于房间传感器监测数据集的探索 2、EEMD-LSTM模型择时策略 — 1.EEMD分解与LSTM模型搭建 3、EEMD-LSTM模型择时策略 — 2. 量化回测 4、国际超市电商销售数据分析 5、基于问卷调查数据的多元统计数据分析与预测&#xff08;因子分析、对应分…

在Ubuntu 20上使用vLLM部署DeepSeek大模型的完整指南

文章目录 步骤一&#xff1a;安装Hugging Face工具步骤二&#xff1a;下载DeepSeek模型步骤三&#xff1a;安装vLLM步骤四&#xff1a;使用vLLM部署模型步骤五&#xff1a;测试推理服务性能优化建议常见问题排查 前言 随着大语言模型&#xff08;LLM&#xff09;的快速发展&…