当前位置: 首页 > news >正文

上海网站建设公司哪个好网站开发项目进度完成表

上海网站建设公司哪个好,网站开发项目进度完成表,哈尔滨seo关键词优化,昆明建网站要多少钱介绍 论文地址:https://arxiv.org/abs/2105.05964 源码地址:https://github.com/facebookresearch/connect-caption-and-trace 在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两…

介绍

论文地址:https://arxiv.org/abs/2105.05964
源码地址:https://github.com/facebookresearch/connect-caption-and-trace

在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两个领域的想法逐渐趋同。

特别是,重点是建立多模态模型来协调视觉和语言,这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力

然而,尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题,并且而且,到目前为止,图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位

本文介绍了一个使用新颖的Transformer架构解决上述问题的论文,该架构对图像、标题和追踪这三种模式进行联合建模。

数据集和新任务概述

首先,描述了本文中使用的本地化叙事数据集和使用它的新任务。

本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成:图像、标题和追踪。

虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务

  1. 以图像和标题作为输入,生成痕迹。
  2. 只用图像作为输入就能生成标题和痕迹。

这在下图中得到了体现。(表中第1行和第3行是新任务)

虽然这三项任务乍看之下是分开的,但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。

MRL(Mirrored TransformeR)

本文没有为上述三个任务建立三个独立的模型,而是提出了一个模型,在一个统一的框架内有效地学习,并共享参数,由于其对称结构,本文将这个模型架构命名为Mirrored TransformeR(MITR)。该模型架构因其对称的结构而被命名为镜像传输(MITR)。(见下图)

特征值

模型的输入是一个图像特征、文本特征和痕迹特征的子集,每个特征都是

  • 图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
  • 对于文本特征,与现有的研究一样,总和位置嵌入和词嵌入
  • 在轨迹特征中,位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。

模型结构

该模型由三个模块组成:1)图像编码器,2)字幕编码-解码器和3)轨迹编码-解码器。(见下图)

让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。

这里,按照现有的研究,前馈网络(FFN)被定义为两个线性转换层,中间有一个ReLU激活函数,MultiHead定义如下。

标题编码器-解码器hw跟踪编码器-解码器hr也定义如下。

这些模块被设计成具有镜像结构,在标题生成和跟踪生成这两项任务中,两种模式是对称的。

另外,通过执行现有研究中提出的屏蔽操作,即编码器指的是所有输入,而解码器只指部分过去的信息 ,上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。

总损失功能

最终的损失函数可以表述如下

其中,**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失,L[caption]是caption生成中的cross-entropy损失,**Lr~→w→r是循环损失,而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。

实验

本文在四个数据集上进行了实验,COCO、Flickr 30k、ADE 20k和Open Images。

痕迹和标题的生成

使用本文提出的方法,跟踪生成(任务1)和标题生成(任务2)的结果如下图所示。结果显示在图2中。

如图所示,所提出的方法能够为这两项任务获得准确的生成结果。

联合字幕和痕迹生成

同时生成字幕和追踪的结果(任务3)如下图所示。

与只对字幕进行建模的基线相比,同时对痕迹和字幕进行建模,使字幕生成性能得到了显著提高。

然而,在没有人为痕迹注释生成标题的情况下,有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷,这表明需要采取一些措施,如保留所有参考对象的记录,以便在未来的发展中避免这种重复。有人建议,在未来的发展中,应采取诸如保留所有参考对象的记录的措施,以避免这种重复。

总结

提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。

由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。

http://www.yayakq.cn/news/493246/

相关文章:

  • 腾讯云怎么做网站动态照片制作
  • 网站和网页的概念yii整合wordpress
  • 珠海知名网站陕西新站seo
  • 哪些网站可以免费做h5京东网站建设吗
  • 长图海报制作网站j建网站
  • 镇江网站关键字优化公司icp备案管理系统
  • 网站建设的发展历程广州网站排名优化价格
  • 电子商务网站建设实训需求分析如何选择网站空间
  • 个人网站 平台承包工程需要注册什么公司
  • 展示型网站案例做网站代理
  • 网站开发 学习步骤软件公司起名大全
  • 如何建设公司的网站首页小企业网站建设流程
  • 靖江 建设局网站华为公司邮箱
  • 网站流量查询站长之家常州高端模板建站
  • 广州番禺网站制作公司塘沽做网站的公司
  • 展示型网站模板源码石大远程网页设计与网站建设答案
  • 电子商务网站安全措施哪个地图软件可以看清村庄
  • 网站导入福建百度代理公司
  • 在线装修设计平台青岛网站seo
  • 辽宁省住房与城乡建设厅网站建设网站的好处
  • 免费网上教学平台网站seo优化包括哪些方面
  • 苏州市市政建设管理处网站园区建设网站的方案
  • python做网站 知乎c2c网站的主要功能
  • 深圳招聘网站前十排名自己的网站怎么做团购
  • 如何做网站的页面怎么做付费网站
  • 做网站是用wordpress还是DW网站开发 百度编辑器
  • 南京网站建设服务公司wordpress代码分析
  • 微网站做下载链接广西壮族自治区免费百度推广
  • 安防公司手机网站网站没有服务器可以吗
  • 魔方 网站手机免费网站空间