当前位置: 首页 > news >正文

网站建设合同或方案书深圳网站建站建设公司地址

网站建设合同或方案书,深圳网站建站建设公司地址,wordpress页面代码怎么改,如何将别人的网站作为自己的随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍&#xff0c…

随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!

        Dalle-3在2023年9月以其强大的图像生成能力惊艳了世人。它从精细化的文本描述入手,融合进了GPT-4的丰富caption能力,另外还引入了早已验证成功了latent空间替代逐pixel的预测,大幅提高了生成图像的质量和多样性。Dalle-3的出现,极大地推动了视觉AIGC领域的发展,为后续的效果创新奠定了坚实的基础。以下是官方样例:

        紧随其后的是2024年2月15的Sora,它在通用视频生成领域取得了突破性的进展。Sora引入了先进的DiTs模块替换掉了UNET,并且将视频处理成了Transformer结构中的visual patch,极大的提升了视频生成的性能,引发了业界广泛的关注。

        压轴的是2024年2月22的Stable Diffusion 3,即图像生成领域的最新SOTA。它引入了更为先进的扩散过程和噪声估计技术Flow Matching,精细化的文本描述配合多模DiTs,使得生成的图像更具指令跟随能力,尤其在图像中文本控制的表现上刷新了新高度。Stable Diffusion 3的出现,不仅提升了扩散模型在图像生成任务中的性能,还为其他领域如自然语言处理、语音识别等提供了可借鉴的技术思路。以下是官方样例:

        这三大技术的崛起,标志着视觉AIGC元年技术大爆炸的到来。它们不仅在各自领域内取得了卓越的成就,还在相互融合中催生出更多新的应用场景和商业模式。未来,随着技术的不断进步和创新,我们有理由相信,视觉AIGC将会为人类带来更多的惊喜和可能。

一、Dalle-3
论文题目:Improving Image Generation with Better Captions,https://cdn.openai.com/papers/dall-e-3.pdf

体验入口:Bing AI - 搜索,https://cn.bing.com/create

发布时间:2023.9

亮点:
1.)精细化caption
论文着重宣传部分。caption生成模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述。以下是用GPT-4生成更加精细化caption的例子:

2.)LDM diffusion
图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度,然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入LDM diffusion模型而且像素级diffusion,指导图像生成方向。与SDXL类似在潜空间进行diffusion是DALL-E 3比前两代生成的图片质量更好的核心原因之一。

二、Sora
论文题目:Video generation models as world simulators,https://openai.com/research/video-generation-models-as-world-simulators

体验入口:Video generation models as world simulators

发布时间:2024.2.15

亮点:
1.)visual patch
Sora将视频数据转换成Transformer大模型可以使用的tokens。这个过程涉及到将视频中的多帧图像进行深度学习压缩,并加上第三维的时间信息,形成patches。这些patches作为tokens,可以应用于Transformer模型中。这种数据转换方式使得Sora能够处理和理解视频数据,为后续的视频生成和处理打下基础。:

2.)diffusion transformer(DiTs)
Sora运用扩散模型来处理视频生成的连续性和细节刻画问题,而Transformer则用于理解并整合复杂的时空上下文信息。通过这样的组合方式,Sora能够高效且创造性地生成高质量的视频内容。具体来讲,使用Transformers替换扩散模型中U-Net主干网络,分析发现,这种Diffusion Transformers(DiTs)不仅速度更快(更高的Gflops),而且在ImageNet 512×512和256×256的类别条件图片生成任务上,取得了更好的效果,256×256上实现了SOTA的FID指标(2.27)。DiTs论文:Scalable Diffusion Models with Transformers,https://arxiv.org/abs/2212.09748。

其中DiTs结构如下:

三、SD-3
论文题目:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis,https://arxiv.org/pdf/2403.03206.pdf

体验入口:https://stability.ai/stablediffusion3

发布时间:2024.02.22

该图表以 SD3 为基准,基于人类偏好评估,展示了 SD3 在视觉美学、提示遵循和排版等方面相对于其他竞争模型的优势。

亮点:
1.)diffusion transformer(DiTs)
与Sora类似用Latent Diffusion Transformer(DiTs) 换掉扩散模型中的 U-Net 结构。SD 3架构图如下所示:

具体来讲,多模态扩散是基座,该架构是建立在 DiT基础上。原始DiT 只考虑类别条件下的图像生成,并使用调制机制来对扩散过程的时间步和类别标签进行条件约束。MM-DiT有如下特点。

1、输入侧:简单文本特征+timestep,丰富文本特征,带噪latent特征+位置编码。

2、多模态DiT:如图 2b 所示,为文本和图像两种模态使用两组独立的权重,然后将两种模态转化后的特征连接起来进行attention后继续分拆出来文本与图像分支,如此嵌套。最终达到文本控制的最大化。

2.)Flow Matching
Flow Matching是一个新的生成模型框架,这项研究为基于连续归一化流(CNF)的生成建模引入了一种新范式,实现了以前所未有的规模训练 CNF。这个框架不依赖复杂的模拟或对数似然估计,而是直接处理生成目标概率路径的向量场。简单来说,Flow Matching给我们提供了一张地图(向量场)和一条路线(概率路径),让我们能够更清晰地了解数据是如何生成的。通过这张地图和路线,我们可以更轻松地训练生成模型,让它学习从噪声中生成出我们想要的数据。Flow Matching还提出了一个叫做条件Flow Matching (CFM)的损失函数,这个函数让模型的训练变得更容易。同时,它还支持各种概率路径,包括diffusion路径和OT路径,这让我们在训练模型时有了更多的选择。使用 Flow Matching 技术的意义则在于提升采样效率。Flow Matching论文:Flow Matching for Generative Modeling,https://arxiv.org/pdf/2210.02747.pdf。

图2和图6是Flow Matching对比diffusion和OT示意图
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/sunbaigui/article/details/136898729

http://www.yayakq.cn/news/22531/

相关文章:

  • 广州h5网站北京百度推广seo
  • 定期更新网站微信小程序官网是正品吗
  • 产品包装设计公司长沙公交优化
  • 肇庆网站推广排名查企业法人电话大全
  • 设计网站流程今天重大新闻头条
  • 南通优化网站排名国内商城网站建设
  • 深圳做网上商城网站怎么建立公司官网
  • 企业网站必须实名认证虚拟货币网站开发
  • 站长工具seo查询5g5g网站策划书籍推荐
  • 域名查询网站主流的网页设计软件
  • 网站备案人有什么责任哈尔滨seo优化排名推广
  • 哈尔滨网站建设网站同城分类信息网站
  • 宁夏公路建设管理局网站编程猫少儿编程官网
  • 那个网站教做菜做的好做年报的网站
  • 建设银行网站地址搜索关键词的方法
  • 梅州免费建站公司简阳建设网站公司
  • 做网站要学什么软件免费图片制作
  • 网站访客分析wordpress 采集 发布
  • 长沙哪家网站建设最好湖北建设局网站首页
  • 想给学校社团做网站深圳网站设计 商城
  • 建设网站的价值苏州网推广网站建设
  • 食品网站建设的目的郴州网站
  • 网站建设成本计划wordpress postclass
  • 贵阳门户网站底部版权wordpress
  • 品牌网站怎么建设长安网站建设公司哪家好
  • 哪些网站可以发广告wordpress出名的网站
  • 永川网站制作包装设计的网站
  • 可以做360度全景图的网站wordpress能建立大型站吗
  • 网站搭建谷歌seo网站建设有哪些家
  • 如何做psd的模板下载网站暑假适合带孩子去哪里旅游