当前位置: 首页 > news >正文

手机抖音你做我女朋友好吗套路网站南京网站设计网站

手机抖音你做我女朋友好吗套路网站,南京网站设计网站,射击游戏网页版,标识标牌网站怎么做Abstract 预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文…

Abstract

        预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。FFMs将一个模拟的中央视网膜集成到一个预训练的卷积神经网络(ConvNet)中,该网络生成一个网络内的特征金字塔,并且几乎没有计算开销。我们的方法将FFMs作为状态表示集成到反向强化学习中。从实验结果来看,我们在COCO-Search18数据集上提高了预测人类目标缺失搜索行为的现有技术水平。代码可在以下链接找到:https://github.com/cvlab-stonybrook/Target-absentHuman-Attention。

关键词:视觉搜索、人类注意力、反向强化学习、注视路径预测、终止预测、目标缺失

Introduction

        人类用来优先选择和筛选视觉信息的注意力机制[37,36,35],引起了计算机视觉研究人员的兴趣,他们希望在机器中复制这种选择效率[43,8,44,7,38]。研究这种效率的最常用范式是视觉搜索任务,其中效率是通过检测图像中的目标所需的注意力转移(凝视注视点)次数来衡量的。但如果目标不在图像中呢?理解目标缺失搜索中的凝视行为(包括搜索终止)将有助于人机交互应用,并解决注意力研究中的一些基本问题。任何预测人类搜索注视点的模型,如果没有解决目标缺失搜索所带来的独特问题,都不算完整。

        灵长类动物的中央视网膜(黄斑)神经解剖结构使得视觉锐度随着与高分辨率中心黄斑的距离增加而降低。在寻找目标时,这种黄斑视网膜驱使人们选择性地将眼睛移向最有可能是目标的图像位置,从而为目标识别任务提供最高分辨率的视觉输入,每次凝视的移动都由来自周边视觉的低分辨率输入引导。认识到人类视觉输入是通过黄斑视网膜过滤的,对于理解和预测人类凝视行为至关重要,尤其是在目标缺失搜索中,因为此时没有明确的目标信号,凝视行为更多地受到与其他物体的上下文关系和可能提供目标位置的空间线索的驱动。

        为了模拟黄斑视网膜以预测人类的搜索凝视,Zelinsky等人[44]直接将预训练的ResNet[16]应用于黄斑图像[34],以提取特征图作为状态表示。Yang等人[43]提出了DCB(多尺度卷积块),通过分别使用完整分辨率图像和其模糊版本的分割图,近似高分辨率的黄斑和低分辨率的外周,后者通过预训练的Panoptic-FPN[22]进行预测。像其他预测人类注意力的模型[31,25,26,7,46]一样,这些方法依赖于预训练网络来提取图像特征,并通过迁移学习训练较小的下游网络,通常是由于缺乏足够的人类凝视数据进行训练。值得注意的是,这些方法应用了在完整分辨率图像上预训练的网络(例如,使用ImageNet[39]训练的ResNets[16]),并将其应用于模糊图像,期望这些预训练网络能够模拟人类如何感知模糊图像。然而,卷积神经网络(ConvNets)对图像扰动非常敏感[17,13],因此从模型中提取的模糊图像特征在目标识别的上下文中几乎没有意义(与人类视觉不同,人类视觉会主动寻求低分辨率外周视觉的指导来帮助目标识别)。

缺乏足够的人类凝视数据”与“使用预训练的ResNet”之间的关联,主要体现在如何通过迁移学习预训练网络缓解数据不足问题,特别是在目标任务(如人类凝视点预测)上。下面是详细的解释:

1. 缺乏足够的人类凝视数据

在凝视点预测等任务中,标注数据(即标出图片中人眼凝视的位置)通常是稀缺的、昂贵的,并且收集过程非常复杂。例如,收集大量带有准确凝视位置的图像需要人工标注,这不仅耗时,而且数据量通常远远不够训练一个高效的深度学习模型。因此,在许多视觉任务中,标注的数据量有限,导致直接从头开始训练深度学习模型变得困难。

2. 预训练网络(如 ResNet)如何帮助解决这个问题

预训练网络的作用

预训练网络(如在ImageNet上训练的ResNet)已经通过大规模数据集(例如 ImageNet,包含了上百万个标注图像)学习到了通用的图像特征。这些特征包括但不限于:

  • 物体的形状、纹理
  • 图像中的边缘、角点等低级特征
  • 复杂物体的构成关系

通过这些学习到的通用特征,网络能够理解并提取图像中最基本的信息,这对于很多视觉任务来说是通用且有效的。

迁移学习与数据不足的关系

迁移学习的核心思想是,利用在大规模数据集(如 ImageNet)上训练的网络,这个网络已经具备了强大的图像特征提取能力。当我们面对一个数据稀缺的任务时(例如凝视点预测),我们可以将预训练网络的参数迁移到新的任务中,并对其进行微调(fine-tuning),即对网络进行少量的再训练,以使其适应新的任务(例如凝视点预测)。

为什么可以弥补数据不足的问题:

  • 预训练网络学到的通用特征可以迁移到不同的任务上,甚至是没有大量标注数据的任务。
  • 微调:我们并不需要从零开始训练网络,而是利用预训练网络已经学习到的知识(通用的图像特征),然后仅在少量的凝视点数据上进行微调。这意味着,我们可以用相对较少的数据来适应特定的任务,而不是完全
http://www.yayakq.cn/news/870715/

相关文章:

  • 网站建设哪些微信文章怎么wordpress
  • 网站备案准备资料定制网页设计报价
  • 杂粮网站建设的必要性徐州建设工程公共资源交易平台
  • 建设网站平台滴滴车网站建设需要云主机吗
  • 建设项目环境影响登记表备案系统网站wordpress报名表单
  • 嘉定网站建设公司好的html5网站模板
  • 金融投资公司网站建设论文嵌入式软件开发技术
  • 是做网站设计好还是杂志美编好扬中网站推广报价
  • 网站优化推广公司排名跨境电商到什么网站做
  • 北京个人做网站易语言可以建设网站吗
  • 做网站购买空间多少钱湖南常德市简介
  • 秦皇岛做网站汉狮网络如何加强英文网站建设
  • 哈尔滨网站制作前景设计手机访问的网站
  • 潍坊作风建设网站大一网页设计作业成品
  • 郑州建设厅网站网络营销的四个特点
  • 淮安网站建设制作苏州论坛
  • 怎么建立视频网站wordpress打不开后台
  • 企业网站建设的成本网页界面设计优秀案例
  • 创建大型网站网页设计图片位置
  • 网站免费虚拟空间知道一个网站怎么知道是谁做的百度优化
  • 自己做章网站国外的网站叫什么
  • 天津快速建站模板杭州四喜做网站建设么
  • 朝城做网站公司设计师怎么弄个人网站
  • 电商运营网站网站建设的感想与建议
  • 网站建设客户调查需求表济南网站建设泉诺
  • 黄山网站开发Wordpress 百度多久收录
  • 扬州中兴建设有限公司网站wordpress 修改域名
  • app网站开发费用wordpress文章标题居中
  • 网站可以做的活动推广如何用域名做网站访问
  • 口腔网站建设南京本地网站建站