当前位置: 首页 > news >正文

网站模板源码下载北京梦活力网站建设

网站模板源码下载,北京梦活力网站建设,下列选项哪些是网络营销的特点,四川省建设厅安全员报名网站随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍&#xff0c…

随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!

        Dalle-3在2023年9月以其强大的图像生成能力惊艳了世人。它从精细化的文本描述入手,融合进了GPT-4的丰富caption能力,另外还引入了早已验证成功了latent空间替代逐pixel的预测,大幅提高了生成图像的质量和多样性。Dalle-3的出现,极大地推动了视觉AIGC领域的发展,为后续的效果创新奠定了坚实的基础。以下是官方样例:

        紧随其后的是2024年2月15的Sora,它在通用视频生成领域取得了突破性的进展。Sora引入了先进的DiTs模块替换掉了UNET,并且将视频处理成了Transformer结构中的visual patch,极大的提升了视频生成的性能,引发了业界广泛的关注。

        压轴的是2024年2月22的Stable Diffusion 3,即图像生成领域的最新SOTA。它引入了更为先进的扩散过程和噪声估计技术Flow Matching,精细化的文本描述配合多模DiTs,使得生成的图像更具指令跟随能力,尤其在图像中文本控制的表现上刷新了新高度。Stable Diffusion 3的出现,不仅提升了扩散模型在图像生成任务中的性能,还为其他领域如自然语言处理、语音识别等提供了可借鉴的技术思路。以下是官方样例:

        这三大技术的崛起,标志着视觉AIGC元年技术大爆炸的到来。它们不仅在各自领域内取得了卓越的成就,还在相互融合中催生出更多新的应用场景和商业模式。未来,随着技术的不断进步和创新,我们有理由相信,视觉AIGC将会为人类带来更多的惊喜和可能。

一、Dalle-3
论文题目:Improving Image Generation with Better Captions,https://cdn.openai.com/papers/dall-e-3.pdf

体验入口:Bing AI - 搜索,https://cn.bing.com/create

发布时间:2023.9

亮点:
1.)精细化caption
论文着重宣传部分。caption生成模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述。以下是用GPT-4生成更加精细化caption的例子:

2.)LDM diffusion
图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度,然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入LDM diffusion模型而且像素级diffusion,指导图像生成方向。与SDXL类似在潜空间进行diffusion是DALL-E 3比前两代生成的图片质量更好的核心原因之一。

二、Sora
论文题目:Video generation models as world simulators,https://openai.com/research/video-generation-models-as-world-simulators

体验入口:Video generation models as world simulators

发布时间:2024.2.15

亮点:
1.)visual patch
Sora将视频数据转换成Transformer大模型可以使用的tokens。这个过程涉及到将视频中的多帧图像进行深度学习压缩,并加上第三维的时间信息,形成patches。这些patches作为tokens,可以应用于Transformer模型中。这种数据转换方式使得Sora能够处理和理解视频数据,为后续的视频生成和处理打下基础。:

2.)diffusion transformer(DiTs)
Sora运用扩散模型来处理视频生成的连续性和细节刻画问题,而Transformer则用于理解并整合复杂的时空上下文信息。通过这样的组合方式,Sora能够高效且创造性地生成高质量的视频内容。具体来讲,使用Transformers替换扩散模型中U-Net主干网络,分析发现,这种Diffusion Transformers(DiTs)不仅速度更快(更高的Gflops),而且在ImageNet 512×512和256×256的类别条件图片生成任务上,取得了更好的效果,256×256上实现了SOTA的FID指标(2.27)。DiTs论文:Scalable Diffusion Models with Transformers,https://arxiv.org/abs/2212.09748。

其中DiTs结构如下:

三、SD-3
论文题目:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis,https://arxiv.org/pdf/2403.03206.pdf

体验入口:https://stability.ai/stablediffusion3

发布时间:2024.02.22

该图表以 SD3 为基准,基于人类偏好评估,展示了 SD3 在视觉美学、提示遵循和排版等方面相对于其他竞争模型的优势。

亮点:
1.)diffusion transformer(DiTs)
与Sora类似用Latent Diffusion Transformer(DiTs) 换掉扩散模型中的 U-Net 结构。SD 3架构图如下所示:

具体来讲,多模态扩散是基座,该架构是建立在 DiT基础上。原始DiT 只考虑类别条件下的图像生成,并使用调制机制来对扩散过程的时间步和类别标签进行条件约束。MM-DiT有如下特点。

1、输入侧:简单文本特征+timestep,丰富文本特征,带噪latent特征+位置编码。

2、多模态DiT:如图 2b 所示,为文本和图像两种模态使用两组独立的权重,然后将两种模态转化后的特征连接起来进行attention后继续分拆出来文本与图像分支,如此嵌套。最终达到文本控制的最大化。

2.)Flow Matching
Flow Matching是一个新的生成模型框架,这项研究为基于连续归一化流(CNF)的生成建模引入了一种新范式,实现了以前所未有的规模训练 CNF。这个框架不依赖复杂的模拟或对数似然估计,而是直接处理生成目标概率路径的向量场。简单来说,Flow Matching给我们提供了一张地图(向量场)和一条路线(概率路径),让我们能够更清晰地了解数据是如何生成的。通过这张地图和路线,我们可以更轻松地训练生成模型,让它学习从噪声中生成出我们想要的数据。Flow Matching还提出了一个叫做条件Flow Matching (CFM)的损失函数,这个函数让模型的训练变得更容易。同时,它还支持各种概率路径,包括diffusion路径和OT路径,这让我们在训练模型时有了更多的选择。使用 Flow Matching 技术的意义则在于提升采样效率。Flow Matching论文:Flow Matching for Generative Modeling,https://arxiv.org/pdf/2210.02747.pdf。

图2和图6是Flow Matching对比diffusion和OT示意图
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/sunbaigui/article/details/136898729

http://www.yayakq.cn/news/629659/

相关文章:

  • 包装袋设计网站推荐汕头网站建设推广
  • 注册建设网站的公司哪家好湖南网站设计企业
  • 鹏鹞网站页面代码外链工具xg
  • 山西制作网站石家庄现状
  • 做网站有哪些好处上海市住房和城乡建设部网站
  • html5 经典网站平面设计软件哪个好用
  • 网站建设导入视频二级域名购买平台
  • 免费推广网站教程门户网站建设开发需要注意什么
  • 精品课程网站建设开题报告网站加载速率
  • 郑州做网站好的公司百度热搜关键词
  • 广州网站优化电话wordpress前台视频上传
  • 广西省河池建设局网站wordpress图片缝隙
  • 研究生做家教什么网站wordpress m3u8 插件
  • 免费字体设计 常见网站有个做名片什么的网站
  • python能否做网站站群推广
  • 高端网站设计品牌wordpress文章直接转html
  • 现在开发个网站多少钱做网站需要硬件软件
  • 网站建设与管理实验临沂法律网站开发公司
  • 织梦网站视频重庆响应式网站多少钱
  • 超凡网络网站小程序商城图片素材
  • 关于门户网站建设报告wordpress登陆菜单
  • 做棋牌辅助网站网校网站建设多少钱
  • 电脑网站搜索如何做纪念册设计制作图片
  • 做推广网站公司南京市溧水区建设局网站
  • 环球易购做中东的网站显示浏览次数 single wordpress
  • 宿迁网站优化排名做网站是前端还是后端
  • 乐平网站做去自己的网站首页
  • 山东一建建设有限公司网站建设银行网站会员登陆
  • 北京南昌企业网站制作免费网站下载app软件
  • 下载的网站模板怎么编辑专业网站建设公司兴田德润优惠吗