首页 > 科技 > Transformers＋世界模型，竟能拯救深度强化学习？

Transformers＋世界模型，竟能拯救深度强化学习？

科技新智元· 2022-10-07

新智元报道

编辑：武穆

【新智元导读】前一段时间，LeCun曾预言AGI：大模型和强化学习都没出路，世界模型才是新路。但最近，康奈尔大学有研究人员，正试着用Transformers将强化学习与世界模型连接起来。

很多人都知道，当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本，分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master，以及吊打前两代的三代目AlphaGo Zero。

AlphaGo的棋艺能够逐代递增，背后其实是在AI技术上一个出现了明显的变化趋势，就是强化学习的比重越来越大。

到了近几年，强化学习又发生了一次「进化」，人们把「进化」后的强化学习，称为深度强化学习。

但深度强化学习代理的样本效率低下，这极大地限制了它们在实际问题中的应用。

最近，许多基于模型的方法被设计来解决这个问题，在世界模型的想象中学习是最突出的方法之一。

然而，虽然与模拟环境几乎无限的交互听起来很吸引人，但世界模型必须在很长一段时间内保持准确。

受Transformer在序列建模任务中的成功启发，康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS，这是一种数据高效代理，它在由离散自编码器和自回归Transformer组成的世界模型中学习。

在Atari 100k基准测试中，在仅相当于两个小时的游戏时间里，IRIS的平均人类标准化得分为1.046，并且在26场比赛中的10场比赛中表现优于人类。

此前，LeCun曾说，强化学习会走进死胡同。

现在看来，康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人，正在将世界模型与强化学习（更准确地说是深度强化学习）融为一体，而连接两者的桥梁，便是Transformers。

深度强化学习有什么不一样

一提到人工智能技术，很多人能想到的，还是深度学习上。

其实，虽然深度学习还活跃在AI领域，但已经暴露出很多问题。

现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”，它有一个特点，就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据，且标识成本很高。

以至于针对这种局面，有人调侃道「有多少人工，就有多少智能」。

很多研究人员，甚至包括有不少的大牛都在反思，琢磨深度学习是不是“错了”。

于是，强化学习开始崛起了。

强化学习和有监督学习、无监督学习都不太一样，它是用智能体不断地试错，并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为，只要奖励激励设定对头，强化学习终将造出真正AGI。

但强化学习也有问题，用LeCun的话说，就是「强化学习要用巨量数据才能训练模型执行最简单任务」。

于是强化学习与深度学习进行了结合，成为深度强化学习。

深度强化学习，强化学习是骨架，深度学习是灵魂，这是什么意思呢？深度强化学习的主要运行机制，其实与强化学习是基本一致的，只不过使用了深度神经网络来完成这一过程。

更有甚者，有的深度强化学习算法，干脆直接在现成的强化学习算法上，通过添加深度神经网络来实现一套新的深度强化学习算法，非常有名的深度强化学习算法DQN就是典型的例子。

Transformers有什么神奇之处

Transformers首次亮相于2017年，是Google的论文《Attention is All You Need》中提出的。

在 Transformer出现之前，人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中，自然语言处理在某种程度上是后来者，」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说，「从某种意义上说，NLP曾落后于计算机视觉，而Transformer改变了这一点。」

近年来，Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。

Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮，比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。

目前，Transformer架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。

比如，Transformer已被用于时间序列预测，同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。

Transformer最近也进入了计算机视觉领域，在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。

世界模型与Transformers联手，其他人怎么看

对于康奈尔大学的研究成果，有外国网友评论道：「请注意，这两个小时是来自环境的镜头长度，在GPU上进行训练需要一周的时间」。

还有人质疑：所以这个系统在一个特别精确的潜在世界模型上学习？该模型不需要预先训练吗？

另外，有人觉得，康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破：「似乎他们只是训练了世界模型，vqvae和演员评论家，所有这些都来自那2个小时的经验（和大约600个纪元）的重播缓冲区」。

参考资料：

https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

本文来自网络，不代表趣头条立场，转载请注明出处：https://www.ngnnn.com/article/4_98018.html

强化学习深度学习深度神经网络人工智能

为您推荐

盖茨盛赞ChatGPT：人工智能历史意义不亚于“PC或互联网诞生”

盖茨盛赞ChatGPT：人工智能历史意义不亚于“PC或互联网诞生”

腾讯科技讯 2月3日消息，微软联合创始人比尔·盖茨表示，像ChatGPT这样的AI聊天机器人将变得与个人电脑或互联网同样重要。盖茨今日接受采访时表示:“AI将成为2023年最热门的话题。这是不可避免的。”他随后补充道:“ChatGPT将变得与个人电脑、互联网同样重要。”盖茨在20世纪80年代帮助开创了个人电脑时代。在微软和苹果等

专访墨奇科技CEO邰骋：人工智能需要新的AI数据基础设施

专访墨奇科技CEO邰骋：人工智能需要新的AI数据基础设施

“人工智能要发展到下一代，必然需要基础理论和基础设施的革新，特别是需要新的 AI 数据基础设施。”9月2日，新京报贝壳财经记者获悉，在近日举办的HICOOL2022全球创业者峰会上，AI（人工智能）基础技术和平台墨奇科技的项目团队获得“HICOOL 2022 全球创业大赛一等奖”。墨奇科技联合创始人、CEO 邰骋接受了新京报贝壳财

人工智能大会将举办智慧体育高峰论坛，发布AI＋体育蓝皮书

人工智能大会将举办智慧体育高峰论坛，发布AI＋体育蓝皮书

2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。主办方供图AI+体育，将成为世界人工智能大会的全新命题和新亮点。2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。论坛上将发布由上海人工智能研究院牵头，联合上海交通大学、上海体育学院、首都体育学院、同济大学等单位编制的国内首本《“AI+体育”蓝

大脑还有多少秘密？世界人工智能大会首开脑机接口主题论坛

大脑还有多少秘密？世界人工智能大会首开脑机接口主题论坛

在2022世界人工智能大会上，天桥脑科学研究院（简称TCCI）转化中心联合中国科学院上海微系统与信息技术研究所、脑虎科技、中国神经科学学会、上海市神经科学学会共同举办“脑·机智能融合-让大脑连接未来”论坛，这也是脑机接口首次以主题论坛的形式登陆世界人工智能大会。英国皇家工程院院士、上海交大医疗机器人研究院院

我国人工智能学科主要奠基人涂序彦逝世，享年 88 岁

我国人工智能学科主要奠基人涂序彦逝世，享年 88 岁

IT之家 3 月 28 日消息，据北京科技大学消息，我国人工智能领域著名科学家、人工智能学科的主要奠基人、中国人工智能学会的主要创始人之一、第二和第三届中国人工智能学会理事长、北京科技大学计算机与通信工程学院教授涂序彦先生，因病医治无效，于 2023 年 1 月 1 日 0 时 10 分在北京逝世，享年 88 岁。IT之家附讣告原文

如何在特斯拉人工智能日上成功搭讪埃隆·马斯克

如何在特斯拉人工智能日上成功搭讪埃隆·马斯克

如何在特斯拉人工智能日上成功搭讪埃隆·马斯克

梁建章：人工智能如何影响经济和各行各业

梁建章：人工智能如何影响经济和各行各业

近日人工智能再次成为了热门话题。很多人好奇的是，人工智能未来到底会如何影响经济、人口和创新？今天，我跟大家分享个人的一些看法——谈谈人工智能对于经济以及各行各业的影响。自从深度神经网络出现以来，人工智能的发展速度超乎想象。ChatGPT的出现是个奇迹，超出了几乎所有计算机科学家的预料。一个简单的神经网络模

AI炒股新纪元？头部量化私募幻方宣布全力探索人工智能应用

AI炒股新纪元？头部量化私募幻方宣布全力探索人工智能应用

头部量化私募幻方宣布成立新的独立的研究组织，探索AGI（即通用人工智能，Artificial General Intelligence）的本质。4月14日，幻方发布公告显示，幻方将集中资源和力量，全力投身到服务于全人类共同利益的人工智能之中，成立新的独立的研究组织，探索AGI的本质，“我们将充分而持续地投入，不做中庸的事，用最长期的眼光去

卷完模型卷芯片！为提升效率，微软准备推出专属人工智能芯片

卷完模型卷芯片！为提升效率，微软准备推出专属人工智能芯片

在早期成功押注ChatGPT的研发公司OpenAI之后，市场发现，微软在其武器库中还拥有另一个秘密武器：自研人工智能芯片，这一芯片将为生成式AI背后的大型语言模型提供强大动力。4月18日周二，据媒体援引两位知情人士的话说，微软早在2019年就开始开发内部代号为Athena的AI芯片。其中一位知情人士称，一些微软和OpenAI的员工已经

真正的应用级量子人工智能距离我们还有多远？

真正的应用级量子人工智能距离我们还有多远？

·“量子科技是强国竞争的战略制高点，但不能一哄而上，低水平重复内卷，或片面追求发论文、抢专利，各自为战，闭门造车，而缺少真正的技术投入和系统配合。”·“当下量子系统的规模非常重要，而这很大程度上取决于芯片。”当前，发展量子计算和人工智能已成为世界各国的重要战略，两者交汇而生的量子人工智能更是发展迅速

谷歌重组虚拟助手部门，专注于 Bard 人工智能技术

谷歌重组虚拟助手部门，专注于 Bard 人工智能技术

谷歌重组虚拟助手部门，专注于Bard人工智能技术

上海人工智能实验室发布重磅开源开放体系，九大项目共建AI技术生态

上海人工智能实验室发布重磅开源开放体系，九大项目共建AI技术生态

上海人工智能实验室发布重磅开源开放体系，九大项目共建AI技术生态

比尔盖茨：超级人工智能还没来，GPT模型是40余年来最革命性技术进步

比尔盖茨：超级人工智能还没来，GPT模型是40余年来最革命性技术进步

比尔盖茨：超级人工智能还没来，GPT模型是40余年来最革命性技术进步

专家热议人工智能立法：价值判断任重道远，原则落地并不容易

专家热议人工智能立法：价值判断任重道远，原则落地并不容易

专家热议人工智能立法：价值判断任重道远，原则落地并不容易

强化学习先驱Richard Sutton：将开发新型计算智能体

强化学习先驱Richard Sutton：将开发新型计算智能体

强化学习先驱Richard Sutton：将开发新型计算智能体

世界人工智能大会闭幕，以会兴业、以会引智、以会聚才效果显著

世界人工智能大会闭幕，以会兴业、以会引智、以会聚才效果显著

世界人工智能大会闭幕，以会兴业、以会引智、以会聚才效果显著

全国首部人工智能立法！中国方案形成中

全国首部人工智能立法！中国方案形成中

全国首部人工智能立法！中国方案形成中

视频｜在世界人工智能大会，也能沉浸体验“元宇宙”

视频｜在世界人工智能大会，也能沉浸体验“元宇宙”

视频｜在世界人工智能大会，也能沉浸体验“元宇宙”

人工智能行业掀抢人大战，北京人才储备居首

人工智能行业掀抢人大战，北京人才储备居首

人工智能行业掀抢人大战，北京人才储备居首

一图读懂｜世界人工智能大会亮点抢先看，首次参展企业超三成

一图读懂｜世界人工智能大会亮点抢先看，首次参展企业超三成

一图读懂｜世界人工智能大会亮点抢先看，首次参展企业超三成