首页 > 科技 > 英伟达也来卷AI绘画,支持几笔完成精准构图,还提出扩散模型进化新方向

英伟达也来卷AI绘画,支持几笔完成精准构图,还提出扩散模型进化新方向

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

英伟达也来卷扩散模型了。

这一次,它将文本生成图像的效果再次提高一个level。

比如,面对超长文本描述,它(下图最右列)比Stable Diffusion和DALL-E 2表达的都更精确:

注意第一组图刺猬的夏威夷风衬衣,以及第三组图猫猫的头盔。

当描述要求展示出具体的文字时,也只有它(下图最右列)可以准确做到:

除此之外,即时样式转换也是小菜一碟,只需一张样图就成。

比如来一个梵高风的泰迪熊冲浪:

或者这样的鸭子:

当然,英伟达最擅长的分割图作画,它也支持,可以让你用寥寥几笔完成精准构图:

(其中,每一个颜色块代表一个元素。)

看起来还阔以吧,它背后的方法也值得说道说道。

两个文本编码器+专家去噪网络

我们知道,扩散模型包含两个阶段:

从原图逐步到噪声的正向过程/扩散过程;

以及从噪声逐步到原图的逆向过程。

第二个过程就是去噪,作者想到,在此阶段,面对不同的噪声水平时都用不同的模型进行处理,也就是开发一个叫做“专家去噪”的网络,效果是不是会更好一些?

于是就诞生了这个新的AIGC工具:eDiffi

eDiffi的pipeline由三个扩散模型级联而成

一个可以合成64x64分辨率样本的基础模型,以及两个可以分别将图像分辨率递增到256x256和1024x1024的超分辨率模型。

当模型接收到一条文本描述时,会首先同时计算T5 XXL embedding和CLIP text embedding

注意是用了两个文本编码器哦,不然效果不会这么好:

Ps. T5指的是谷歌的文本到文本转换器(Text-to-Text Transfer Transformer ),它可以帮助模型做到更精准地理解文本描述。

接着选择根据参考图像计算得出的CLIP图像编码,用作样式向量(可选可不选)。

然后再将所有embedding都馈送到上面的级联扩散模型中,最后逐渐生成分辨率为1024x1024的图像。

再来说说主角:去噪专家(Denoising experts)网络。

我们知道,在扩散模型中,图像的合成是通过迭代去噪过程来完成的,这个过程又指的是从随机噪声中逐渐生成图像。

在传统的扩散模型训练中,都是训练一个模型来对整个噪声分布进行去噪。

而在作者的这个框架中,他们训练了一组专家去噪器,专门用于在生成过程的不同步骤进行去噪。

如下图所示,作者是先从一个完整的随机噪声开始,然后分多个步骤逐步操作,最终生成一张骑自行车的熊猫图像。

一位StabilityAI员工认为,这种方法可能是扩散模型的下一大突破/进步。因为不止英伟达的这个eDiffi,还有百度的文心ERNIE-ViLG 2.0也是这么做的。

zero-shot FID上获SOTA得分

eDiffi模型是在“公共和专有数据集的集合”上训练而成。

其中基础模型花了256块英伟达A100 GPU,两个超分辨率模型则花了128块A100。

用于PK的模型包括GLIDE、Make-A-Scene、DALL-E 2、Stable Diffusion和谷歌的两个图像合成系统Imagen和Parti。

作者从COCO验证集中随机提取30000个文本描述,然后让这些模型生成结果,纪录zero-shot FID-30K得分。

最终,eDiffi获得了最低也就是最佳分数,说明它与文字的匹配度是最高的。

最后,再来两组效果展示和对比:

以及风格迁移的(第一列为参考风格,第二列为结果,第三列为参考图像):

关于作者

一共有12位,都来自英伟达,其中3位华人:

毕业于康奈尔大学的博士黄勋(AdaIN一作)、毕业于清华本科和斯坦福博士的Song Jiaming以及英伟达高级研究总监Liu MingYu。

目前,该模型还未开源,不过有人表示改动不算大,所以实现起来并不难,应该很快就有人复现出来了。

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_140406.html
上一篇六年13个赛季,KPL成为移动电竞赛事“领头羊”
下一篇暴跌68%!280亿超级富豪的“豪赌”,败了!宣布关店

为您推荐

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

【华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌】财联社11月7日电,华为智选车战略总监王连军透露,AITO问界已经连续三个月销量破万,在刚刚过去的10月份,销量达到了12018台,在新势力车企中做到当月市场第一。王连军表示,过去的汽车行业积累了精益制造与供应链体系能力,但未来是软件定义汽车,智能化是
AirPods Pro 2,这次真的值得换了?

AirPods Pro 2,这次真的值得换了?

本周,苹果发布了秋季特别活动的邀请函,将发布会定档北京时间 9 月 8 日凌晨 1 点。除了 iPhone 14,大家心心念念的另一款重磅产品,也有望在本次发布会亮相。那就是 AirPods Pro 2。距离第一代 AirPods Pro 发布,已经过去了三年,想必有不少小伙伴已经在为耳机的续航而发愁。AirPods 3 提升不错,但又不支持主动降噪。那
除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

【联合出品团队】硅兔赛跑成员王子、顾程来,夏维彬对本文亦有贡献,腾讯科技成员李海丹、郝博阳、关皓。 【免责声明】本篇内容并非投资意见,为便于理解,该系列汇总了相关领域的典型企业案例作为参考,但所含相关公司资料不构成任何投资产品之要约或者建议,只作为一般参考资料用途。【版权声明】本文版权为硅兔赛跑和腾
曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

竞技游戏中的人机模式,一直以来都是玩家用来熟悉游戏、精进技术的最佳手段之一。相对于真人,AI的行为会稍显呆板,只会按照指令来行动。即使强如《英雄联盟》中的末日人机,也仅仅是在数值和技能类型上做出了调整,整体依然不足以与真人相提并论。而最近有款竞技游戏却打破了这个认知,那就是国产多人动作游戏《永劫无间》
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

机器之心报道编辑:袁铭怿网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为
出门问问发布大模型“序列猴子”及四款AIGC产品

出门问问发布大模型“序列猴子”及四款AIGC产品

三言科技消息 出门问问宣布内测探索大模型「序列猴子」,并提出CoPilot将会无处不在,同时在大模型能力的基础上还同步开启了面向创作者的CoPilot产品矩阵,面向C端的升级版语音助手魔法小问,以及面向B端的企业专属大模型的内测探索。其中面向创作者的CoPilot产品矩阵包含了四款AIGC产品,分别为AI写作平台“奇妙文”、AI
达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

杨净 发自 凹非寺量子位 | 公众号 QbitAI刚刚,达摩院十大科技趋势榜单发布。本次包含了AI、芯片、云计算等基础技术领域,既有引发全球投资浪潮的生成式AI,也有在规模化应用前夜的存算一体、Chiplet设计封装技术……(先来一睹为快)但跟以往不同的是,仅从榜单上可以看到,产业、融合等成为此次的关键词。而在跟达摩院进
“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

·“很多年前可能需要我们在农田里务农,工业时代变成流水线女工,到现在变成‘PPT女工’。未来可能就变成为AI工作的工人,是‘喂它东西的饲养员’。变化的只是工作形式,我们始终都会有工作。当然在这个过程中还有一部分人会因为没有继续学习,或者没有继续使用新工具而被淘汰。”曹宇在上海一家媒体担任英文报道编辑,平
知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

腾讯科技讯 4月13日,知乎在北京召开“2023知乎发现大会”,首次公开旗下与面壁智能共建的大模型产品“知海图AI”,双方合作将以联合研发与战略投资的方式展开。据了解,目前“知海图AI”已经应用到“热榜摘要”功能当中,通过对知乎社区现有的内容进行聚合、整理,然后提炼成摘要展现给用户,目前该功能已开放内测。官方表
孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

孙燕姿回应“AI孙燕姿”:人类无法超越AI,做自己就够了

近期,“AI孙燕姿”因翻唱《下雨天》等歌曲走红网络。5月22日晚,孙燕姿发文回应称,人类无法超越AI技术已指日可待,凡事皆有可能,凡事皆无所谓,“我认为思想纯净、做自己,已然足够”。孙燕姿表示,无论是ChatGPT还是Al或者其他名字,现在这个“东西”能够通过处理海量的信息,同时以最连贯的方式拼接组合手头的任务,来
在黄仁勋的“iPhone时刻”,人与AI究竟是什么关系?

在黄仁勋的“iPhone时刻”,人与AI究竟是什么关系?

AI时代,我们是谁,从哪里来,到哪里去?撰文 | 佘宗明「你是谁,从哪里来,到哪里去」在「AI的iPhone时刻」已到来的背景下,所谓的人生终极三问,从保安的灵魂追问变为我们的扪心自问,几乎是必然。我们究竟要到哪里去?这是我们无法回避的问题。有人说,包揽今年奥斯克7项大奖的《瞬息全宇宙》,用天马行空的科幻剧情设
返回顶部