当前位置: 首页 > news >正文

德州做网站dzqifanwordpress 科技类主题

德州做网站dzqifan,wordpress 科技类主题,凡客做网站,中国建盏大师排名表近年来,计算机视觉取得了显着的进步,特别是在图像分割和目标检测任务方面。 最近值得注意的突破之一是分段任意模型(SAM),这是一种多功能深度学习模型,旨在有效地从图像和输入提示中预测对象掩模。 通过利用…

近年来,计算机视觉取得了显着的进步,特别是在图像分割和目标检测任务方面。 最近值得注意的突破之一是分段任意模型(SAM),这是一种多功能深度学习模型,旨在有效地从图像和输入提示中预测对象掩模。 通过利用强大的编码器和解码器,SAM 能够处理各种分割任务,使其成为研究人员和开发人员的宝贵工具。

在这里插入图片描述

推荐:用 NSDT编辑器 快速搭建可编程3D场景

1、SAM模型简介

SAM 使用图像编码器(通常是视觉变换器 (ViT))来提取图像嵌入,作为掩模预测的基础。 该模型还包含一个提示编码器,它对各种类型的输入提示进行编码,例如点坐标、边界框和低分辨率掩模输入。 然后将这些编码的提示与图像嵌入一起输入掩码解码器以生成最终的对象掩码。

在这里插入图片描述

上述架构允许对已编码的图像进行快速、轻松的提示。

SAM 设计用于处理各种提示,包括:

  • 掩模:可以提供粗略的、低分辨率的二进制掩模作为初始输入来指导模型。
    点:用户可以输入 [x, y] 坐标及其类型(前景或背景)来帮助定义对象边界。
  • Box:可以使用坐标 [x1, y1, x2, y2] 指定边界框,以告知模型有关对象的位置和大小。
  • 文本:文本提示还可用于提供附加上下文或指定感兴趣的对象。
    在这里插入图片描述

深入研究 SAM 的架构,我们可以探索其关键组件:

  • 图像编码器:SAM默认的图像编码器是ViT-H,但根据具体要求也可以使用ViT-L或ViT-B。
  • 下采样:为了降低提示二进制掩模的分辨率,采用了一系列卷积层。
  • 提示编码器:位置嵌入用于对各种输入提示进行编码,这有助于告知模型图像中对象的位置和上下文。
  • 掩码解码器:修改后的变压器编码器用作掩码解码器,将编码的提示和图像嵌入转换为最终的对象掩码。
  • 有效掩码:对于任何给定的提示,SAM 都会生成三个最相关的掩码,为用户提供一系列可供选择的选项。

他们使用焦点、骰子和 IoU 损失的加权组合来训练模型。 权重分别为 20、1、1。

SAM 的优势在于其适应性和灵活性,因为它可以与不同的提示类型一起生成准确的分割掩模。 与作为各种自然语言处理应用程序的坚实基础的基础语言模型 (LLM) 非常相似,SAM 也为计算机视觉任务提供了坚实的基础。 该模型的架构旨在促进下游任务的轻松微调,使其能够针对特定用例或领域进行定制。 通过针对特定于任务的数据微调 SAM,开发人员可以增强其性能并确保其满足应用程序的独特要求。

这种微调能力不仅使 SAM 在各种场景中都能实现令人印象深刻的性能,而且还促进了更高效的开发过程。 以预训练模型为起点,开发人员可以专注于针对特定任务优化模型,而不是从头开始。 这种方法不仅节省时间和资源,而且还利用预训练模型中编码的广泛知识,从而形成更加强大和准确的系统。

2、自然语言提示

文本提示与 SAM 的集成使模型能够执行高度具体且上下文感知的对象分割。 通过利用自然语言提示,SAM 可以根据感兴趣的对象的语义属性、属性或与场景中其他对象的关系来对其进行分割。

在训练 SAM 的过程中,使用最大的公开可用的 CLIP 模型(ViT-L/14@336px)来计算文本和图像嵌入。 这些嵌入在用于训练过程之前会被标准化。

为了生成训练提示,每个掩码周围的边界框首先按 1 倍到 2 倍范围内的随机因子扩展。 然后对展开的框进行方形裁剪以保持其纵横比,并将大小调整为 336×336 像素。 在将裁剪图像输入 CLIP 图像编码器之前,掩模外部的像素以 50% 的概率被清零。 编码器的最后一层使用屏蔽注意力,以确保嵌入集中在对象上,从而将输出标记的注意力限制到屏蔽内的图像位置。 输出标记嵌入作为最终提示。 在训练期间,首先提供基于 CLIP 的提示,然后提供迭代点提示以完善预测。

为了进行推理,使用未修改的 CLIP 文本编码器为 SAM 创建提示。 该模型依赖于 CLIP 实现的文本和图像嵌入的对齐,这使得无需显式文本监督即可进行训练,同时仍使用基于文本的提示进行推理。 这种方法使 SAM 能够有效地利用自然语言提示来实现准确且上下文感知的分割结果。

不幸的是,Meta 还没有发布带有文本编码器的 SAM 的权重(还没有?)。

3、lang-segment-anything

lang-segment-anything 库结合了 GroundingDino 和 SAM 的优势,提出了一种创新的对象检测和分割方法。

最初,GroundingDino 执行零样本文本到边界框(text-to-bounding-box)对象检测,根据自然语言描述有效识别图像中感兴趣的对象。 然后,这些边界框用作 SAM 模型的输入提示,该模型为识别的对象生成精确的分割掩模。

from  PIL  import  Image
from lang_sam import LangSAM
from lang_sam.utils import draw_imagemodel = LangSAM()
image_pil = Image.open('./assets/car.jpeg').convert("RGB")
text_prompt = 'car, wheel'
masks, boxes, labels, logits = model.predict(image_pil, text_prompt)
image = draw_image(image_pil, masks, boxes, labels)

在这里插入图片描述

4、Lightning AI应用

你可以使用Lightning AI App框架快速部署应用程序。 我们将使用 ServeGradio 组件通过 UI 部署我们的模型。 你可以在此处了解有关 ServeGradio 的更多信息。

import osimport gradio as gr
import lightning as L
import numpy as np
from lightning.app.components.serve import ServeGradio
from PIL import Imagefrom lang_sam import LangSAM
from lang_sam import SAM_MODELS
from lang_sam.utils import draw_image
from lang_sam.utils import load_imageclass LitGradio(ServeGradio):inputs = [gr.Dropdown(choices=list(SAM_MODELS.keys()), label="SAM model", value="vit_h"),gr.Slider(0, 1, value=0.3, label="Box threshold"),gr.Slider(0, 1, value=0.25, label="Text threshold"),gr.Image(type="filepath", label='Image'),gr.Textbox(lines=1, label="Text Prompt"),]outputs = [gr.outputs.Image(type="pil", label="Output Image")]def __init__(self, sam_type="vit_h"):super().__init__()self.ready = Falseself.sam_type = sam_typedef predict(self, sam_type, box_threshold, text_threshold, image_path, text_prompt):print("Predicting... ", sam_type, box_threshold, text_threshold, image_path, text_prompt)if sam_type != self.model.sam_type:self.model.build_sam(sam_type)image_pil = load_image(image_path)masks, boxes, phrases, logits = self.model.predict(image_pil, text_prompt, box_threshold, text_threshold)labels = [f"{phrase} {logit:.2f}" for phrase, logit in zip(phrases, logits)]image_array = np.asarray(image_pil)image = draw_image(image_array, masks, boxes, labels)image = Image.fromarray(np.uint8(image)).convert("RGB")return imagedef build_model(self, sam_type="vit_h"):model = LangSAM(sam_type)self.ready = Truereturn modelapp = L.LightningApp(LitGradio())

这样就可以了,应用程序在浏览器中启动!

在这里插入图片描述

5、结束语

这就是我们对分段任意模型的介绍的总结。 显然,SAM 对于计算机视觉研究人员和开发人员来说是一个有价值的工具,它能够处理各种分割任务并适应不同的提示类型。 其架构允许轻松实施,使其具有足够的通用性,可以根据特定的用例和领域进行定制。 总体而言,SAM 已迅速成为机器学习社区的重要资产,并且肯定会继续在该领域掀起波澜。


原文链接:文本提示目标检测与分割 — BimAnt

http://www.yayakq.cn/news/187548/

相关文章:

  • 秦皇岛建设局局官方网站网站建设背景分析论文
  • app网站建设哪家好大连开发区凯旋国际
  • 甘德县公司网站建设广州天华建筑设计有限公司
  • 营销型网站建设怎么收费东莞24小时推广首页
  • 最简单的手机网站制作单位制作网站备案
  • 平台网站建设多少钱做爰视频免费观看网站
  • 创想网站标志设计图片及说明
  • 做的王者荣耀钓鱼网站关键词排名优化网站建设公司哪家好
  • 怎么查询网站的域名网站后台的建设
  • 郑州公司建设网站韩国vps
  • 帮别人做网站市场价电商类网站开发
  • 沧州网站推广烟台网站制作开发
  • 信息图表制作网站网站建设用什么视频播放器
  • 什么网站可以免费发广告wordpress 买主题
  • 滑县网站建设哪家便宜nas可做网站服务器吗
  • 免费 网站 平台wordpress英文版安装选哪个语言
  • 网上三维展馆网站是怎么做的lovefort表白网站制作
  • 做网站的去那里接单中国建设银行个人登录入口
  • 口腔医院网站建设在线图片编辑器
  • 做网站干什么国外产品展示网站源码
  • 网站建设长尾关键词做ppt素材的网站有哪些
  • 大名网站建设电话网站建设调研表
  • 青岛网站有限公司软件开发模式
  • 雅安建设网站吉林智能网站建设找哪家
  • 做个网站得投入多少交通网上服务平台
  • 网站建设中 页面广告设计主要做什么
  • 公司网站服务器租赁家政服务网站建设
  • 柳州公司网站建设wordpress 文章调用
  • 学校网站功能百度竞价推广开户内容
  • 政务网站建设经验做法郑州网站推广外包