当前位置: 首页 > news >正文

平台网站建设调研报告怎么制作公司的网站

平台网站建设调研报告,怎么制作公司的网站,深圳快速网站制作服,wordpress 访问速度慢清华&百度等联合提出了ReSyncer,可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。 ReSyncer的工作原理可以简单理解为…

清华&百度等联合提出了ReSyncer,可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

ReSyncer的工作原理可以简单理解为:首先,它接收你要处理的音频。然后,它使用一个特别的程序来分析这个声音,并根据声音的特点生成一个3D面部模型。这部分被称为Style-SyncFormer。接下来,ReSyncer会用生成的3D面部模型和目标视频中的脸部图像相结合,制作出一个嘴唇动作同步、表情丰富的高质量视频。这样,创造出肌肉动态与音频配合得天衣无缝的虚拟人物便成为可能。

上面为ReSyncer生成的假唱/说话风格转换/换脸结果。该方法不仅可以产生高保真的口型视频 但音频可以进一步转移任何目标人的说话风格和身份。

亮点直击

  1. 提出了ReSyncer框架,该框架通过涉及具有简单重新配置的3D面部网格,展示了基于Style 的生成器在同步视听面部信息方面的强大功能。

  2. 我们提出了 Style-SyncFormer,它使用简单的 Transformer 块学习风格化的 3D 面部动态,从而实现广义的 3D 面部动画。

  3. ReSyncer不仅可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

相关链接

论文地址:http://arxiv.org/abs/2408.03284v1

项目地址:https://guanjz20.github.io/projects/ReSyncer

论文阅读

ReSyncer:基于风格重新布线的统一视听同步面部表演者生成器

摘要

使用给定的音频对口型视频是各种应用的基础,包括创建虚拟主持人或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步,但它们的任务导向模型要么需要长期视频进行特定片段的训练,要么保留可见的伪影。

在本文中,我们提出了一个统一有效的框架 ReSyncer,它可以同步广义的视听面部信息。关键设计是重新审视和重新连接基于风格的生成器,以有效采用由原则性风格注入的 Transformer 预测的 3D 面部动态。通过简单地重新配置噪声和风格空间内的信息插入机制,我们的框架将运动和外观与统一的训练融合在一起。

大量实验表明,ReSyncer 不仅可以根据音频制作高保真的口型同步视频,而且还支持多种适合创建虚拟主持人和表演者的吸引人的属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

方法

ReSyncer框架主要包括两个阶段:

  • 第一阶段是风格注入唇同步变换器(Style-SyncFormer),其负责从音频输入预测3D面部动态;

  • 第二阶段是重新配置的基于风格的生成器,用以将3D动态渲染成高保真的面部图像。

具体实现中,Style-SyncFormer利用音频特征,通过简单的Transformer结构预测与说话风格相关的3D面部网格位移。在模型训练过程中,注入的3D面部网格严重影响生成的质量。此外,在基于风格的生成器中,通过简单插入机制与高质量的3D面部信息融合来生成最终图像,从而大幅提升了嘴唇同步的质量和稳定性。

换脸的Pipeline。 通过重新配置输入数据和额外的训练损失,可以同时实现口型同步和换脸。

效果

定性交叉同步结果。 顶行显示驾驶音频的口型同步视频。基于“模板”行的生成结果应具有与第一行“口型同步视频”相同的唇形。

HDTF 和 VoxCeleb2 的定量结果。对于 LMD 和 ∆Sync,越低越好,对于其他则越高越好。

换脸的定性结果。 身份交换的结果应该保留模板的表情和唇动。

换脸口型同步的结果。ID 交换结果由给定的音频驱动。我们将其与口型同步和换脸中的两种 SOTA 方法的组合进行了比较。我们的方法生成的结果以更好的保真度保留了细节,同时保持了与源相似的说话风格。

消融实验

消融实验。(a)3D 面部网格提供详细的空间引导,实现卓越的口型同步。(b)具有面部器官形状的网格也增强了换脸中的身份传输。

结论

本文重点介绍了 ReSyncer 框架的几个重要特性:

  1. 易于重新配置的特性进一步揭示了广泛研究的结构的潜力,从而可以实现具有网格表示的高质量广义口型同步结果。

  2. 我们的框架旨在采用外部身份信息,因此我们实现了与现有技术相当的换脸能力,同时将口型同步能力保持在一个统一的模型内。

  3. 网络支持说话风格转换、视频驱动的面部动画,并可应用于实时直播。这些特性互补地满足了不同情况下虚拟表演者创作的各种需求。

http://www.yayakq.cn/news/877824/

相关文章:

  • 丰南建设网站唐山网站设计制作
  • 做任务的设计网站怀远网站建设
  • 06年可以做相册视频的网站淘客推广是什么
  • 找做帽子的工厂网站销售技巧和话术
  • 深圳住房和建设局网站分类网站开发
  • 佛山网站建设解决方案wordpress 文章侧边栏
  • 云南网站推广优化网站建设策划书的主要内容
  • 淄博网站建设app开发做网站是什么职业
  • 做网站的国标有哪些个人网站建设与实现毕业设计
  • 做外卖有哪些网站php网站后台源码
  • 做公司网站注意什么淘宝上网站建设为啥这么便宜
  • 盐城网站建设seo免费课程
  • 商务网站开发步骤网上服务大厅用户登录
  • 技术专业网站建设建设网站的工作步骤是
  • 个人网站搭建详细流程如何推广电商平台
  • 深圳网站制作长沙工程建设施工企业质量管理规范
  • 专门做红酒的网站进地铁建设公司网站
  • 古镇灯饰网站建设熊掌号国外直播平台tiktok下载
  • 泉州网站公司为什要做网站
  • 定制网站开发方案ppt黑白网站模板
  • 大连哪里做网站好自己设计网页怎么做
  • 安防 光速东莞网站建设珠海网站设计多少钱
  • 网站建立的优点建设执业资格注册中心网站办事大厅
  • 关于网站建设相关文章商城网站建站系统源码
  • 河南中恒诚信建设有限公司网站网站302怎么做
  • 做冒菜店网站整站网站优化费用
  • 网上做网站网站代理赚钱吗上海网上推广优化
  • 中国建设人才专业服务网搜索引擎优化的专家是什么意思
  • 做框架图的网站勒流网站制作
  • 模板网站建站关键词优化排名工具