我在谷歌大脑工作的 18 个月

创投
2019
04/10
07:35
雷锋网
分享
评论

雷锋网 AI 科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。Marc G. Bellemare 是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。雷锋网 AI 科技评论全文编译如下。雷锋网

时间回溯到 2017 年夏天,在欧洲一段时间的告别旅行中,我被当时在蒙特利尔新成立的谷歌大脑团队录用 (当时我进行远程办公)。我在家里的办公室可以看到伦敦北部贝尔塞斯公园(Belsize Park)的绝美景色,而且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。

从那以后,我搬到了另一个大陆,在 AI 实习生、学生研究者和全职谷歌员工三重角色中转换。现在,谷歌团队的规模有了相当大的扩展 (而且还在继续扩展:Marlos C. Machado 也加入了我们)。事后看来,2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作,从而让我们对不远的未来有了一个认识。

分布式强化学习

「它很好。但它如何实现呢 ?」

在强化学习中,分布式的方法认为我们应该预测随机收益的分布,而不是预测它们的期望值 ( Bellemare, Dabney, Munos, ICML 2017 ) 。然而,大多数分布式智能体仍然通过将行动值 (action value)分布提取还原为它们各自的期望值,然后选择期望值最高的操作来运行。预测,然后提取。那么,为什么它在实践中表现得如此出色呢 ?

为了回答这个问题,我们开发了一种正式语言来分析分布式强化学习方法,尤其是基于样本的方法(Rowland 等,AISTATS 2018)。通过这一形式,我们发现原来的分布式算法(称为 C51)隐式地最小化了概率分布之间的距离(Cramér 距离)。但是我们的一些结果表明,分布式算法应该最小化分布之间的 Wasserstein 距离,而不是 Cramér 距离。我们(我指的是 Will Dabney)用一种叫做分位数回归(quantile regression,)的技术重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距离。由此产生的智能体(这个称为 QR-DQN)在 Atari 2600 基准上表现出强大的性能(Dabney et al.,AAAI 2018)。另一个令人兴奋的结果是, Mark Rowland 最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配,这就解释了为什么这些算法有效,而其他算法注定会失败(Rowland et al.,2019)。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表国际科技要闻的观点和立场。

相关热点

2017 年底,滴滴定下了 2018 年 " 整体微盈利 " 的小目标。然而,2018 年,滴滴全年亏损高达 109 亿元。
创投
在创享投资创始合伙人易丽君眼中,女性创业者与生俱来的韧性,“遇山开山,遇河过河”吸引着投资者的目光。
创投
175 的身高,黑色眼镜框,一身蓝色西装外套搭配牛仔裤,张建锋出现在阿里云峰会现场。
创投
近日,职场社交平台 LinkedIn(领英)于在中国首次发布 " 顶尖公司排行榜 ",有 25 家上榜中外公司被评为中国职场人最向往的企业,其中阿里巴巴、百度、字节跳动、复星和 NIO 蔚来位居榜单前五。
创投
据新华社 6 日报道,伊斯兰开发银行行长班达尔 · 哈贾尔 5 日在摩洛哥南部城市马拉喀什表示,该机构计划为成员国在关键领域的投资提供 1 万亿美元资金。
创投

相关推荐

1
3