首页 > 科技 > 扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术

扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术

选自assemblyai

作者:Ryan O'Connor

机器之心编译

机器之心编辑部

本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。

谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。

仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例,在图像下方显示出了相应的字幕。

这些令人印象深刻的生成图像不禁让人想了解:Imagen 到底是如何工作的呢?

近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的关联。

Imagen 工作原理概览

在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此关联,这里使用自注意力方法。

如果 Imagen 只关注单个单词而不是它们之间的关联,虽然可以获得能够捕获字幕各个元素的高质量图像,但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示,如果不考虑单词之间的关联,就会产生截然不同的生成效果。

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示,但仍需要设计一种方法生成使用这一表示的图像,也即图像生成器。为此,Imagen 使用了扩散模型,它是一种生成模型,近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。

扩散模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声过程来学习恢复数据。给定输入图像,扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像,最终留下高斯噪声或电视噪音静态(TV static)。下图为扩散模型的迭代噪声过程:

然后,扩散模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏过程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,使用扩散模型逐渐去噪以生成图像,具体如下图所示:

总之,经过训练的扩散模型从高斯噪声开始,然后迭代地生成与训练图像类似的图像。很明显的是,无法控制图像的实际输出,仅仅是将高斯噪声输入到模型中,并且它会输出一张看起来属于训练数据集的随机图像。

但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像,因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢?

上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中,这些向量被聚合在一起,并在它们的基础上调整扩散模型。通过调整这一向量,扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示:

由于图像生成器或基础模型输出一个小的 64x64 图像,为了将这一模型上采样到最终的 1024x1024 版本,使用超分辨率模型智能地对图像进行上采样

对于超分辨率模型,Imagen 再次使用了扩散模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码调整外,还以正在上采样的更小图像来调整。整个过程的可视化图如下所示:

这个超分辨率模型的输出实际上并不是最终输出,而是一个中等大小的图像。为了将该图像放大到最终的 1024x1024 分辨率,又使用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。

为什么 Imagen 比 DALL-E 2 更好?

确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像(本质上是 CLIP)的相关程度。文本和图像编码器调整它们的参数,使得相似的字幕 - 图像对的余弦相似度最大化,而不同的字幕 - 图像对的余弦相似度最小化。

性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线:

放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的扩散模型只要以强大的编码为条件,就可以产生高质量的结果。

鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图像 - 字幕对更丰富这一事实,大部分性能差距可能归因于这种差异。

除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:

扩展文本编码器是非常有效的;

扩展文本编码器比扩展 U-Net 大小更重要;

动态阈值至关重要;

噪声条件增强在超分辨率模型中至关重要;

将交叉注意用于文本条件反射至关重要;

高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向,而不是只在文本到图像的子领域有用。

原文链接:https://www.assemblyai.com/blog/how-imagen-actually-works/

THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_12514.html
上一篇“接班”贝索斯一年,股价跌40%,亚马逊新帅卡在哪儿了?
下一篇“亚洲最大社区”天通苑有了首座科技园!记者探秘

为您推荐

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

【华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌】财联社11月7日电,华为智选车战略总监王连军透露,AITO问界已经连续三个月销量破万,在刚刚过去的10月份,销量达到了12018台,在新势力车企中做到当月市场第一。王连军表示,过去的汽车行业积累了精益制造与供应链体系能力,但未来是软件定义汽车,智能化是
谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

作者 | 冬梅自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的诞生,人工智能研究的进展发生了革命性的变化。近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。我们提
AirPods Pro 2,这次真的值得换了?

AirPods Pro 2,这次真的值得换了?

本周,苹果发布了秋季特别活动的邀请函,将发布会定档北京时间 9 月 8 日凌晨 1 点。除了 iPhone 14,大家心心念念的另一款重磅产品,也有望在本次发布会亮相。那就是 AirPods Pro 2。距离第一代 AirPods Pro 发布,已经过去了三年,想必有不少小伙伴已经在为耳机的续航而发愁。AirPods 3 提升不错,但又不支持主动降噪。那
除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

【联合出品团队】硅兔赛跑成员王子、顾程来,夏维彬对本文亦有贡献,腾讯科技成员李海丹、郝博阳、关皓。 【免责声明】本篇内容并非投资意见,为便于理解,该系列汇总了相关领域的典型企业案例作为参考,但所含相关公司资料不构成任何投资产品之要约或者建议,只作为一般参考资料用途。【版权声明】本文版权为硅兔赛跑和腾
曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

竞技游戏中的人机模式,一直以来都是玩家用来熟悉游戏、精进技术的最佳手段之一。相对于真人,AI的行为会稍显呆板,只会按照指令来行动。即使强如《英雄联盟》中的末日人机,也仅仅是在数值和技能类型上做出了调整,整体依然不足以与真人相提并论。而最近有款竞技游戏却打破了这个认知,那就是国产多人动作游戏《永劫无间》
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

机器之心报道编辑:袁铭怿网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为
出门问问发布大模型“序列猴子”及四款AIGC产品

出门问问发布大模型“序列猴子”及四款AIGC产品

三言科技消息 出门问问宣布内测探索大模型「序列猴子」,并提出CoPilot将会无处不在,同时在大模型能力的基础上还同步开启了面向创作者的CoPilot产品矩阵,面向C端的升级版语音助手魔法小问,以及面向B端的企业专属大模型的内测探索。其中面向创作者的CoPilot产品矩阵包含了四款AIGC产品,分别为AI写作平台“奇妙文”、AI
达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

杨净 发自 凹非寺量子位 | 公众号 QbitAI刚刚,达摩院十大科技趋势榜单发布。本次包含了AI、芯片、云计算等基础技术领域,既有引发全球投资浪潮的生成式AI,也有在规模化应用前夜的存算一体、Chiplet设计封装技术……(先来一睹为快)但跟以往不同的是,仅从榜单上可以看到,产业、融合等成为此次的关键词。而在跟达摩院进
“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

·“很多年前可能需要我们在农田里务农,工业时代变成流水线女工,到现在变成‘PPT女工’。未来可能就变成为AI工作的工人,是‘喂它东西的饲养员’。变化的只是工作形式,我们始终都会有工作。当然在这个过程中还有一部分人会因为没有继续学习,或者没有继续使用新工具而被淘汰。”曹宇在上海一家媒体担任英文报道编辑,平
谷歌街景独立 App 将于 2023 年停止运营

谷歌街景独立 App 将于 2023 年停止运营

IT之家 11 月 2 日消息,安卓和 iOS 版谷歌街景 App 将于明年初停止运营,并将在未来几周从应用商店中删除。一位 Google 发言人证实,该应用将从 2023 年 3 月起停用。这是安卓和 iPhone 上的专用街景应用程序,允许用户使用谷歌公司的服务来获得世界各地的 360 度视图。需要注意的是,该功能不会从标准的谷歌地图应用中删
知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

腾讯科技讯 4月13日,知乎在北京召开“2023知乎发现大会”,首次公开旗下与面壁智能共建的大模型产品“知海图AI”,双方合作将以联合研发与战略投资的方式展开。据了解,目前“知海图AI”已经应用到“热榜摘要”功能当中,通过对知乎社区现有的内容进行聚合、整理,然后提炼成摘要展现给用户,目前该功能已开放内测。官方表
孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

近期,“AI孙燕姿”因翻唱《下雨天》等歌曲走红网络。5月22日晚,孙燕姿发文回应称,人类无法超越AI技术已指日可待,凡事皆有可能,凡事皆无所谓,“我认为思想纯净、做自己,已然足够”。孙燕姿表示,无论是ChatGPT还是Al或者其他名字,现在这个“东西”能够通过处理海量的信息,同时以最连贯的方式拼接组合手头的任务,来
返回顶部