首页 > 科技 > 谷歌、MIT“迭代共同认证”视频问答模型：SOTA性能，算力少用80％

谷歌、MIT“迭代共同认证”视频问答模型：SOTA性能，算力少用80％

科技新智元· 2022-10-26

新智元报道

编辑：David

【新智元导读】谷歌、MIT联合研究，视频问答模型计算效率提升一倍。

视频是一种无处不在的媒体内容源，涉及到人们日常生活的许多方面。越来越多的现实世界的视频应用，如视频字幕、内容分析和视频问答（VideoQA），都依赖于能够将视频内容与文本或自然语言联系起来的模型。

其中，视频问答模型尤其具有挑战性，因为它需要同时掌握语义信息，比如场景中的目标，以及时间信息，比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。

此外，由于视频有许多帧，处理全部的帧来学习时空信息，可能在计算上成本过高。

论文链接：https://arxiv.org/pdf/2208.00934.pdf

为了解决这个问题，在「Video Question Answering with Iterative Video-Text Co-Tokenization」一文中，谷歌和MIT的研究人员介绍了一种视频-文本学习的新方法，称为「迭代共同标记」，能够有效地融合空间、时间和语言信息，用于视频问答的信息处理。

这种方法是多流的，用独立的骨干模型处理不同规模的视频，产生捕捉不同特征的视频表示，例如高空间分辨率或长时间的视频。

模型应用「共同认证」模块，从视频流与文本的融合中学习有效表示。模型计算效率很高，只需67GFLOPs，比以前的方法至少低了50%，同时比其他SOTA的模型有更好的性能。

视频-文本迭代

该模型的主要目标是从视频和文本（即用户问题）中产生特征，共同允许它们的相应输入进行互动。第二个目标是以有效的方式做到这一点，这对视频来说非常重要，因为它们包含几十到几百帧的输入。

该模型学会了将视频-语言的联合输入标记为较小的标记集，以联合和有效地代表两种模式。在标记化时，研究人员使用两种模式来产生一个联合的紧凑表示，该表示被送入一个转换层以产生下一级的表示。

这里的一个挑战，也是跨模态学习中的典型问题，就是视频帧往往并不直接对应于相关的文本。研究人员通过增加两个可学习的线性层来解决这个问题，在标记化之前，统一视觉和文本特征维度。这样一来，研究人员就可以让视频和文本都能制约视频标记的学习方式。

此外，单一的标记化步骤不允许两种模式之间的进一步互动。为此，研究人员使用这个新的特征表示与视频输入特征互动，并产生另一组标记化的特征，然后将其送入下一个转化器层。

这个迭代过程中会创建新的特征或标记，表示对两种模式的联合表示的不断完善。最后，这些特征被输入到生成文本输出的解码器中。

按照视频质量评估的惯例，在对个别视频质量评估数据集进行微调之前，研究人员对模型进行预训练。

在这项工作中，研究人员使用基于语音识别的文本自动注释的视频，使用HowTo100M数据集，而不是在大型VideoQA数据集上预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频-文本特征。

高效视频问答的实现

研究人员将视频语言迭代共同认证算法应用于三个主要的VideoQA基准，MSRVTT-QA、MSVD-QA和IVQA，并证明这种方法比其他最先进的模型取得了更好的结果，同时模型不至于过大。另外，迭代式共同标记学习在视频-文本学习任务上对算力的需求也更低。

该模型只用67GFLOPS算力，是3D-ResNet视频模型和文本时所需算力（360GFLOP）的六分之一，是X3D模型效率的两倍多。并且生成了高度准确的结果，精度超过了最先进的方法。

多流视频输入

对于VideoQA或其他一些涉及视频输入的任务，研究人员发现，多流输入对于更准确地回答有关空间和时间关系的问题很重要。

研究人员利用三个不同分辨率和帧率的视频流：一个低分辨率、高帧率的输入视频流（每秒32帧，空间分辨率64x64，记作32x64x64）；一个高分辨率、低帧率的视频（8x224x224）；以及一个介于两者之间的（16x112x112）。

尽管有三个数据流需要处理的信息显然更多，但由于采用了迭代共同标记方法，获得了非常高效的模型。同时，这些额外的数据流允许提取最相关的信息。

例如，如下图所示，与特定活动相关的问题在分辨率较低但帧率较高的视频输入中会产生较高的激活，而与一般活动相关的问题可以从帧数很少的高分辨率输入中得到答案。

这种算法的另一个好处是，标记化会根据所问问题的不同而改变。

结论

研究人员提出了一种新的视频语言学习方法，它侧重于跨视频-文本模式的联合学习。研究人员解决了视频问题回答这一重要而具有挑战性的任务。研究人员的方法既高效又准确，尽管效率更高，但却优于目前最先进的模型。

谷歌研究人员的方法模型规模适度，可以通过更大的模型和数据获得进一步的性能改进。研究人员希望，这项工作能引发视觉语言学习方面的更多研究，以实现与基于视觉的媒体的更多无缝互动。

参考资料：

https://ai.googleblog.com/2022/08/efficient-video-text-learning-with.html

本文来自网络，不代表趣头条立场，转载请注明出处：https://www.ngnnn.com/article/4_115641.html

谷歌算力 mit sota

为您推荐

谷歌推出文本到图像模型Muse：生成图片质量更高、推理时间更短

谷歌推出文本到图像模型Muse：生成图片质量更高、推理时间更短

作者 | 冬梅自 2021 年初以来，随着大量深度学习支持的文本到图像模型（例如 DALL-E-2、Stable Diffusion 和 Midjourney 等）的诞生，人工智能研究的进展发生了革命性的变化。近日，谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称，Muse 是一种文本到图像的 Transformer 模型，该模型可以实现先进的图像生成性能。我们提

谷歌街景独立 App 将于 2023 年停止运营

谷歌街景独立 App 将于 2023 年停止运营

IT之家 11 月 2 日消息，安卓和 iOS 版谷歌街景 App 将于明年初停止运营，并将在未来几周从应用商店中删除。一位 Google 发言人证实，该应用将从 2023 年 3 月起停用。这是安卓和 iPhone 上的专用街景应用程序，允许用户使用谷歌公司的服务来获得世界各地的 360 度视图。需要注意的是，该功能不会从标准的谷歌地图应用中删

苹果谷歌牵头制定追踪行业规范草案防止功能遭滥用

苹果谷歌牵头制定追踪行业规范草案防止功能遭滥用

【CNMO新闻】在2021年的春季发布会上，苹果推出了蓝牙追踪设备AirTag，该产品配合苹果设备的“查找”应用，可以追踪和查找重要物品。然而，也有用户发现这类设备可能会遭到滥用，例如将其放在他人不知情的地方，可以对个人进行跟踪。AirTag为了杜绝此类现象，苹果与谷歌宣布联合提交一份行业规范草案，帮助应对蓝牙定位追踪

劈柴哥预告Bard将迎重磅升级，谷歌“最强大脑”能否超车ChatGPT？

劈柴哥预告Bard将迎重磅升级，谷歌“最强大脑”能否超车ChatGPT？

财联社4月2日讯（编辑赵昊）上周，美国科技巨头谷歌公司推出了聊天机器人“巴德”（Bard）的测试版本。由于用户使用体验远不如ChatGPT，Bard反响平平。当地时间周五（3月31日），谷歌首席执行官"劈柴哥"桑达尔·皮查伊（Sundar Pichai）在播客节目中表示，这种状况可能很快就会改变，因为Bard将在未来几天从目前基于的LaM

科技巨头欧洲裁员不易，谷歌亚马逊设法“吸引”员工离职

科技巨头欧洲裁员不易，谷歌亚马逊设法“吸引”员工离职

勒紧裤腰带“过冬”的美国科技巨头现在碰到新的难题，想在欧洲搞大裁员谈何容易，特别是要在国内劳动法对员工保护力度位居欧盟成员国前列的法国和德国，更是难上加难。在美国，企业宣布大裁员后就能在几个月内解雇数百甚至数千名员工，许多公司已经这样做。而在欧洲，媒体发现，科技企业的大裁员已经停滞，因为在一些欧洲国

多款重磅芯片产品亮相WAIC，为元宇宙算力“蓄能”

多款重磅芯片产品亮相WAIC，为元宇宙算力“蓄能”

2022世界人工智能大会（WAIC 2022）召开前夕，第一财经记者探访世博中心展台，华为昇腾、瀚博半导体、燧原科技等一众芯片参与者齐聚，届时将有包括国产7纳米云端GPU等重磅产品发布。目前，上海已汇聚全国40%左右的集成电路人才，最新数据显示，今年1至7月，上海集成电路产业销售额同比增长超过18%；上海已成为国内集成电路

谷歌Stadia发布新试玩系统：玩家解锁特定成就完成试玩

谷歌Stadia发布新试玩系统：玩家解锁特定成就完成试玩

【CNMO新闻】游戏试玩我们都曾有所接触，在过去游戏试玩版本通常是开发者在游戏上市之前发布的一个涵盖游戏部分内容的封包进行上传后，有意试玩的玩家进行下载测试，这样的方式已经延续了很久，其弊端就是玩家需要在游戏正式发布后在单独下载新的游戏包体，增加了重复下载的困扰。也有一些开发者选择游戏整包作为测试版本上

史上AI最高分！谷歌大模型创美国医师执照试题新纪录

史上AI最高分！谷歌大模型创美国医师执照试题新纪录

杨净羿阁发自凹非寺量子位 | 公众号 QbitAI史上AI最高分，谷歌新模型刚刚通过美国医师执照试题验证！而且在科学常识、理解、检索和推理能力等任务中，直接与人类医生水平相匹敌。在一些临床问答表现中，最高超原SOTA模型17%以上。此进展一出，瞬间引爆学界热议，不少业内人士感叹：终于，它来了。广大网友在看完Med-PaL

谷歌计划打造全新搜索引擎应对必应等竞争推AI功能升级现有引擎

谷歌计划打造全新搜索引擎应对必应等竞争推AI功能升级现有引擎

【美媒：谷歌计划打造全新搜索引擎应对必应等竞争将推出AI功能升级现有引擎】财联社4月17日电，据纽约时报消息，新必应等AI竞争者正成为25年来谷歌搜索业务的“最严重威胁”，作为回应，谷歌据悉正寻求打造一款由AI技术驱动的全新搜索引擎。查阅的内部文件显示，谷歌还在用AI功能升级现有引擎。据悉，谷歌正测试项目名为“

MIT开发出纸张太阳能电池，效率翻18倍，重量不到原来百分之一

MIT开发出纸张太阳能电池，效率翻18倍，重量不到原来百分之一

Pine 发自凹非寺量子位 | 公众号 QbitAI和纸一样薄的太阳能电池，你见过吗？现在，MIT研究团队搞出来了，整个电池结构只有2～3微米厚，模样长这样：不仅厚度更薄了，并且效率也翻了n番：每千克产生的电量是传统太阳能电池的18倍。并且这项研究的通讯作者Vladimir Bulović还新创立了一家公司，准备进一步开发和商业化这款

消息称谷歌正测试一款类似ChatGPT的聊天机器人

消息称谷歌正测试一款类似ChatGPT的聊天机器人

鞭牛士 2月2日消息，据外媒报道，据知情人士表示，谷歌正在测试新的人工智能驱动的聊天产品，可能会影响未来公共产品的发布。这些产品包括一个新的聊天机器人，以及一种将其整合到搜索引擎的潜在方式。

负责人离职，谷歌AR似乎是要复刻Android模式

负责人离职，谷歌AR似乎是要复刻Android模式

2022年年末ChatGPT的横空出世，让人工智能再次踏上了风口浪尖，甚至一众科技巨头也纷纷为之“倾倒”，仿佛错过它就错失了通往未来的船票。特别是在微软方面将ChatGPT与Bing搜索引擎结合、以挑战谷歌搜索之时，谷歌很快就成为了这些巨头中反应最激烈的一个，但与ChatGPT针锋相对的产品Bard，出道即遭遇了翻车。然而强如谷歌

雷军称低谷期曾想转行开酒吧；谷歌数据中心发生爆炸｜商业参考

雷军称低谷期曾想转行开酒吧；谷歌数据中心发生爆炸｜商业参考

雷军称低谷期曾想转行开酒吧；谷歌数据中心发生爆炸｜商业参考

睡梦中收到裁员邮件！谷歌全球裁员1.2万，科技人才高薪时代即将结束？

睡梦中收到裁员邮件！谷歌全球裁员1.2万，科技人才高薪时代即将结束？

睡梦中收到裁员邮件！谷歌全球裁员1.2万，科技人才高薪时代即将结束？

谷歌重组虚拟助手部门，专注于 Bard 人工智能技术

谷歌重组虚拟助手部门，专注于 Bard 人工智能技术

谷歌重组虚拟助手部门，专注于Bard人工智能技术

壁仞科技发布首款通用 GPU 芯片 BR100，打破全球算力纪录

壁仞科技发布首款通用 GPU 芯片 BR100，打破全球算力纪录

壁仞科技发布首款通用 GPU 芯片 BR100，打破全球算力纪录

传三星电子将代工谷歌智能手机的3nm移动芯片

传三星电子将代工谷歌智能手机的3nm移动芯片

传三星电子将代工谷歌智能手机的3nm移动芯片

元宇宙“兵马未动”，算力网络“粮草先行”

元宇宙“兵马未动”，算力网络“粮草先行”

元宇宙“兵马未动”，算力网络“粮草先行”

算力网络：下一代互联网or中国科技的被迫突围？

算力网络：下一代互联网or中国科技的被迫突围？

算力网络：下一代互联网or中国科技的被迫突围？

谷歌曝光有史以来最大 DDoS 攻击，数据比之前的记录高出 76％

谷歌曝光有史以来最大 DDoS 攻击，数据比之前的记录高出 76％

谷歌曝光有史以来最大 DDoS 攻击，数据比之前的记录高出 76％