我在谷歌大脑工作的 18 个月

创投

2019

04/10

07:35

雷锋网

雷锋网 AI 科技评论按：在强化学习领域，谷歌大脑的研究内容一直是业界重点关注的对象。Marc G. Bellemare 是谷歌大脑的研究员，研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。雷锋网 AI 科技评论全文编译如下。雷锋网

时间回溯到 2017 年夏天，在欧洲一段时间的告别旅行中，我被当时在蒙特利尔新成立的谷歌大脑团队录用（当时我进行远程办公）。我在家里的办公室可以看到伦敦北部贝尔塞斯公园（Belsize Park）的绝美景色，而且还曾招待了谷歌蒙特利尔的整个强化学习团队，这是真的。

从那以后，我搬到了另一个大陆，在 AI 实习生、学生研究者和全职谷歌员工三重角色中转换。现在，谷歌团队的规模有了相当大的扩展（而且还在继续扩展：Marlos C. Machado 也加入了我们）。事后看来，2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出，以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作，从而让我们对不远的未来有了一个认识。

分布式强化学习

「它很好。但它如何实现呢 ?」

在强化学习中，分布式的方法认为我们应该预测随机收益的分布，而不是预测它们的期望值 ( Bellemare, Dabney, Munos, ICML 2017 ) 。然而，大多数分布式智能体仍然通过将行动值（action value）分布提取还原为它们各自的期望值，然后选择期望值最高的操作来运行。预测，然后提取。那么，为什么它在实践中表现得如此出色呢 ?

为了回答这个问题，我们开发了一种正式语言来分析分布式强化学习方法，尤其是基于样本的方法（Rowland 等，AISTATS 2018）。通过这一形式，我们发现原来的分布式算法（称为 C51）隐式地最小化了概率分布之间的距离（Cramér 距离）。但是我们的一些结果表明，分布式算法应该最小化分布之间的 Wasserstein 距离，而不是 Cramér 距离。我们（我指的是 Will Dabney）用一种叫做分位数回归（quantile regression,）的技术重新修正了大部分的 C51，在一定程度上最小化了 Wasserstein 距离。由此产生的智能体（这个称为 QR-DQN）在 Atari 2600 基准上表现出强大的性能（Dabney et al.，AAAI 2018）。另一个令人兴奋的结果是， Mark Rowland 最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配，这就解释了为什么这些算法有效，而其他算法注定会失败（Rowland et al.，2019）。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表国际科技要闻的观点和立场。