7Papers腾讯王者荣耀绝悟AI;ICLR⾼分论⽂Reformer
机器之⼼整理
作者:杜伟
本周 7 Papers 包含多篇 AAAI 2020、ICLR 2020 ⼊选论⽂,如腾讯 AI Lab 游戏 AI 研究、提⾼ Transformer 性能的研究等。
⽬录:
1.Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
2.PEGASUS: Pre-training with Extracted Gap-ntences for Abstractive Summarization
3.BackPACK: Packing more into backprop
4.Deep Audio Priordeepa是什么意思
5.REFORMER: THE EFFICIENT TRANSFORMER
6.TextTubes for Detecting Curved Text in the Wild
7.Joint Commonn and Relation Reasoning for Image and Video Captioning
论⽂ 1:Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
•作者: Deheng Ye、Zhao Liu、Mingfei Sun 等
•论⽂链接: arxiv/abs/1912.09729
摘要:在本⽂中,来⾃腾讯⼈⼯智能实验室和天美⼯作室的研究者对多玩家在线竞技场(Multi-player Online Battle Arena,MOBA)1v1 游戏中复杂⾏动的强化学习问题进⾏了研究。与围棋和雅达利等传统 1v1 游戏相⽐,MOBA 1v1游戏中玩家的状态和⾏动空间问题更加复杂,这导致很难开发出⼈类玩家级别的游戏策略。因此,研究者提出了⼀个深度强化学习框架,从系统和算法两⽅⾯来解决上述问题。系统具有低耦合度和⾼扩展性,因⽽可以实现⼤范围内的有效探索。算法包含⼏项新颖的策略,如控制依赖解耦(control dependency decoupling)、⾏动 mask、⽬标注意⼒和dual-clip 近端策略优化(proximal policy optimization,PPO),从⽽使得提出的执⾏器-评估器(Actor-Critic)⽹络可以在系统中获得有效地训练。通过 MOBA 游戏《王者荣耀》的测试,训练的 AI 智能体可以在 1v1 游戏模式中击败顶尖职业玩家。
王者荣耀 1v1 游戏 UI 界⾯。在主屏幕中,左上⾓的 A 为⼩地图、右上⾓ B 为控制⾯板、左下⾓ C.1 butler
为移动控制、右下⾓的 C.2 为技能控制。实验表明,AI 智能体能在多种不同类型的英雄上能击败顶级职业玩家。
表 4:AI 与不同顶级⼈类玩家的⽐赛结果。
推荐:腾讯王者荣耀⼈⼯智能「绝悟」的论⽂⼊选 AAAI 2020。在研究测试中,AI 玩露娜和顶级选⼿单挑时也赢了个3:0。
论⽂ 2:PEGASUS: Pre-training with Extracted Gap-ntences for Abstractive Summarization
•作者: Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter J. Liu
•论⽂链接: arxiv/pdf/1912.08777.pdf
摘要:当在⽂本摘要等下游 NLP 任务上进⾏微调时,⼤规模⽂本语料库上具有⾃监督⽬的(lf-supervid objective)的预训练 Transformer 取得了很⼤的成功。但是,尚未有研究涉及到专门针对抽象式⽂本摘要(abstractive text summarization)的预训练⽬的。此外,不同领域之间也缺少系统化评估。
因此,在本⽂中,来⾃帝国理⼯学院和⾕歌⼤脑团队的研究者提出了⼤规模⽂本语料库上具有新的⾃
监督⽬的的⼤型Transformer 预训练编码器-解码器模型 PEGASUS(Pre-training with Extracted Gap-ntences for Abstractive Summarization)。与抽取式⽂本摘要(extractive summary)相似,在 PEGASUS 模型中,输⼊⽂档中删除或 mask 重要句⼦,并与剩余句⼦⼀起作为输出序列来⽣成。研究者在新闻、科学、故事、说明书、邮件、专利以及⽴法议案等12 项⽂本摘要下游任务上测试了 PEGASUS 模型,结果表明该模型在全部 12 项下游任务数据集上取得了 SOTA 结果
12 项⽂本摘要下游任务上测试了 PEGASUS 模型,结果表明该模型在全部 12 项下游任务数据集上取得了 SOTA 结果(以 ROUGE score 衡量)。此外,该模型在低资源(low-resource)⽂本摘要中也有⾮常良好的表现,在仅包含 1000个⽰例的 6 个数据集上超越了以往的 SOTA 结果。
PEGASUS 的基础架构是⼀个标准的 Transformer 编码器-解码器。
在 12 个下游任务数据集上,PEGASUS_LARGE 和 PEGASUS_BASE 与以往 SOTA 的结果对⽐。
在 XSum、CNN/DailyMail 和 Gigaword 数据集上,PEGASUS_LARGE 与其他模型的结果对⽐。
推荐:研究者展⽰了预训练语料库、gap-ntence ratio 和词汇量对⽂本⽣成的影响,并证明提出的 PEGASUS 模型可以⾮常快速地适应未知的⽂本摘要数据集。
论⽂ 3:BackPACK: Packing more into backprop
•作者: Felix Dangel、Frederik Kunstner、Philipp Hennig
•论⽂链接: arxiv/abs/1912.10985
摘要:⾃动微分框架只在计算平均⼩批量(mini-batch)梯度时进⾏优化。但在理论上,⼩批量梯度⽅差或 Hessian 矩阵近似值等其他数量可以作为梯度实现⾼效的计算。研究⼈员对这些数量抱有极⼤的兴趣,但⽬前的深度学习软件不⽀持⾃动计算。此外,⼿动执⾏这些数量⾮常⿇烦,效率低,⽣成代码的共享性也不⾼。这种情况阻碍了深度学习的进展,并且导致梯度下降及其变体的研究范围变窄。与此同时,这种情况还使得复现研究以及新提出需要这些数量的⽅法之间的⽐较更为复杂。因此,为了解决这个问题,来⾃图宾根⼤学的研究者在本⽂中提出⼀种基于 PyTorch 的⾼效框架BackPACK,该框架可以扩展反向传播算法,进⽽从⼀阶和⼆阶导数中提取额外信息。研究者对深度神经⽹络上额外数量的计算进⾏了基准测试,并提供了⼀个测试最近⼏种曲率估算优化的⽰例应⽤,最终证实了 BackPACK 的性能。
在真实⽹络上同时计算梯度和⼀阶或⼆阶扩展与单独计算梯度的开销基准对⽐。
第⼀版 BackPACK 框架⽀持的功能。
pixelplus
推荐:本⽂提出的 BackPACK 框架丰富了⾃动微分程序包的句法,从⽽为平均批量梯度下的优化器提供额外的可观察量。
论⽂ 4:Deep Audio Prior
•作者: Yapeng Tian、Chenliang Xu、Dingzeyu Li
•论⽂链接: arxiv/abs/1912.10292
摘要:众所周知,深度卷积神经⽹络专门⽤于从⼤量数据中蒸馏出压缩和鲁棒的先验。在训练数据集缺失时,研究⼈员往往有兴趣运⽤深度⽹络。在本⽂中,来⾃罗切斯特⼤学和 Adobe Rearch 的研究者提出了⼀种深度⾳频先验框架(Deep Audio Prior,DAP),它在单个⾳频⽂件中利⽤到了⽹络结构和时态信息。具体⽽⾔,他们证明,⼀个随机初始化的神经⽹络可以与精⼼设计的⾳频先验⼀道使⽤,以解决盲源分离、交互式⾳频编辑、⾳频纹理合成以及⾳频同时分离等富有挑战性的⾳频问题。为了理解 DAP 的鲁棒性,研究者利⽤各种声源创建了⼀个⽤于声源分离的基准数据集Universal-150。实验结果表明,与以往的研究⼯作相⽐,DAP 在定性和定量评估层⾯都取得了更好的⾳频效果。
以合成声⾳混合光谱图表⽰的 DAP 框架。由于随机噪声作为输⼊,研究者利⽤了两个声⾳预测⽹络 S_1 和 S_2 以及两个 mask 模块化⽹络 M_1 和 M_2,以实现声源分离。
不同盲源分离⽅法在 Universal-150 基准上的⾳频效果对⽐。从定性上来看,DAP 的效果显著优于 NMF、RPCA、
不同盲源分离⽅法在 Universal-150 基准上的⾳频效果对⽐。从定性上来看,DAP 的效果显著优于 NMF、RPCA、KAM 等⽅法。
unbreakable推荐:本⽂提出的 DAP 框架要求零训练数据(Zero Training Data),并且得益于它的通⽤和⽆监督属性,该框架的潜在应⽤可以获得保证。
论⽂ 5:REFORMER: THE EFFICIENT TRANSFORMER
•作者: Nikita Kitaev、Lukasz Kair、Anlm Levskaya
•论⽂链接: openreview/pdf?id=rkgNKkHtvB
摘要:⼤型的 Transformer 往往可以在许多任务上实现 sota,但训练这些模型的成本很⾼,尤其是在序列较长的时候。在 ICLR 的⼊选论⽂中,我们发现了⼀篇由⾕歌和伯克利研究者发表的优质论⽂。⽂章介绍了两种提⾼ Transformer 效率的技术,最终的 Reformer 模型和 Transformer 模型在性能上表现相似,并且在长序列中拥有更⾼的存储效率和更快的速度。论⽂最终获得了「8,8,6」的⾼分。在最开始,⽂章提出了将点乘注意⼒(dot-product attention)替换为⼀个使⽤局部敏感哈希(locality-nsitive hashing)的点乘注意⼒,将复杂度从 O(L2 ) 变为 O(L log L),此处 L 指序列的长度。此外,研究者使⽤可逆残差(reversible residual layers)代替标准残差(standard residuals),
make it to the end这使得存储在训练过程中仅激活⼀次,⽽不是 n 次(此处 n 指层数)。最终的 Reformer 模型和 Transformer 模型在性能上表现相同,同时在长序列中拥有更⾼的存储效率和更快的速度。
简化的局部敏感哈希注意⼒,展⽰了 hash-bucketing、排序和分块步骤,并最终实现注意⼒机制。
南外摇号图左:在 enwik8 上 LSH 注意⼒随层数增加的性能变化曲线;图右:全注意⼒和 LSH 注意⼒的评估速度呈现出不同的曲线变化。
推荐:Transformer 是近期 NLP 领域⾥的经典模型,但因为算⼒消耗过⼤,对于个⼈研究者来说⼀直不太友好。近⽇⼀篇⼊选 ICLR 2020 的研究提出了「Reformer」,把跑 Transformer 模型的硬件要求压缩到了只需⼀块 GPU,同时效果不变。
论⽂ 6:TextTubes for Detecting Curved Text in the Wild
•作者: Joel Seytre、Jon Wu、Alessandro Achille
•论⽂链接: arxiv/pdf/1912.08990.pdf
kohinoor摘要:在本⽂中,亚马逊的三位研究者提出了⼀种⽤于⾃然图像中曲线⽂本的检测器 TextTubes。他们围绕场景⽂本实例(scene text instance)的中轴线,将它们作为 tube 进⾏建模,并提出了⼀个参
数化不变(parametrization-invariant)的损失函数。研究者训练了⼀个两阶曲线⽂本检测器,并在曲线⽂本基准 CTW-1500 和 Total-Text 上评估。他们提出的检测器实现并甚⽽提升了 SOTA 性能,其中 CTW-1500 基准上的 F-score 提升了 8 个百分点。
研究者利⽤提出的模型和曲线⽂本检测器 TextTubes 做出的推理。现实⽣活中的物体通常包含嵌⼊式和弯曲的⽂本,检测这些⽂本往往会采取输出四边形的错误⽅法。
不同⽂本表⽰三种不同⽅法的⽂本检索结果对⽐。(a)为原始图像,(b)和(c)表⽰长⽅形和四边形的检索⽅法会产⽣重叠,并且在捕捉⽂本时往往将⼤量的背景噪声(background noi)作为⽂本信息,同时在⼀个特定的 box 中包含多个⽂本实例。(d)中绿⾊的为 ground truth 多边形,品红⾊的为多边形的中轴线,箭头表⽰ tube 的半径。
推荐:本⽂提出的 TextTubes 检测器对⽂本实例⾮常有效,并且也能够泛化⾄姿态估计等具有复杂但相关中轴线的其他任务。
论⽂ 7:Joint Commonn and Relation Reasoning for Image and Video Captioning
•作者: Jingyi Hou、Xinxiao Wu、Xiaoxun Zhang 等
•论⽂链接: wuxinxiao.github.io/asts/papers/2020/C-R_reasoning.pdf
英语说课
•论⽂链接: wuxinxiao.github.io/asts/papers/2020/C-R_reasoning.pdf
摘要:本⽂对北京理⼯⼤学、阿⾥⽂娱摩酷实验室合作的论⽂《Joint Commonn and Relation Reasoning for Image and Video Captioning》进⾏解读。在此论⽂中,研究者们提出了⼀种联合常识和关系推理的图像视频⽂本描述⽣成⽅法。该⽅法通过迭代学习算法实现,交替执⾏以下两种推理⽅式:(1) 常识推理,将视觉区域根据常识推理,嵌⼊到语义空间中从⽽构成语义图;(2) 关系推理,将语义图通过图神经⽹络编码,⽣成图像视频⽂字描述。
基于常识推理的图像视频⽂字描述⽣成⽰例图。
MSVD 数据集上各⽅法的对⽐结果。
新概念第一册MSCOCO 数据集上各⽅法的对⽐结果。
stronger歌词推荐:本⽂提出的⽅法利⽤先验知识交替迭代执⾏常识推理和关系推理,⽣成语义图来学习物体之间的语义关系,从⽽准确描述图像视频的内容。在图像和视频数据集上的实验表明,该⽅法优于其他最新⽅法。