人工智能领域面临极化，巨头实验室或将主宰AI未来

国际象棋和围棋曾是孩子的游戏。现在AI正在赢得夺旗游戏。这些技能最终会转化到现实世界吗？

孩子们会在夏季营地开放空间玩夺旗这个游戏；同时，争夺旗子这个游戏画面也是Quake III和Overwatch等热门游戏的一部分。

无论是哪种情况，这都是一项团队运动。每一方都守卫一面旗帜，同时还要计划如何抓住对方的旗帜并将其带回到自己的大本营。赢得比赛需要良好的老式团队合作以及协调防守和攻击之间的平衡。

换句话说，夺得旗帜需要一套看起来似乎只有人工才能操作的技能。但伦敦一家人工智能实验室的研究人员表明，机器也可以攻克这项游戏，至少在虚拟世界中是可以的。

在五月三十日发表在《科学》杂志上的一篇论文中，研究人员称他们在Quake III游戏的夺旗环节中设计了自动“代理人”，这些“代理人”表现的就跟人类在操作一样。这些代理人能够自行组队来对抗人类玩家，也可以与他们并肩作战，根据情况相应地调整自己的行为。

隶属于Alphabet的DeepMind实验室的研究员Wojciech Czarnecki表示：“这些代理人可以适应具有任意技能的队友。”

通过数千小时的游戏，代理人学会了非常特殊的技能，比如在队友即将获得旗帜的情况下极速跑去攻击对手的大本营。正如人类玩家所知，当对方旗帜被夺得并带到自己的大本营时，对家的大本营中会出现一面可以抢夺的新旗。

DeepMind的项目是努力构建人工智能应用于复杂三维动画游戏的一部分，这些三维动画游戏包括Quake III、Dota 2和星际争霸II。许多研究人员认为：虚拟领域的成功最终将提升现实世界中人工智能的应用能力。

例如，这些技能可以使仓库机器人受益——当他们分组工作将货物从一个地方移动到另一个地方时，或者帮助自动驾驶汽车在交通拥堵时集中导航。位于旧金山的OpenAI实验室有着类似研究项目，项目负责人Greg Brockman说道：“游戏一直是AI的基准。如果不能攻克游戏难题，就不能指望AI解决其他问题。”

直到最近，在像Quake III这样的游戏中构建一个可以匹配人类玩家的系统才成为可能，以前看来似乎是不可能的。但是在过去的几年里，DeepMind、OpenAI以及其他实验室取得了重大进展，这要归功于一种称为“强化学习”的数学技术，这种技术使得机器能通过极端的反复试验和试错来学习。

通过一遍又一遍地玩游戏，这些自动代理人可以了解哪些策略能成功，哪些策略不成功。如果代理人在队友即将夺旗的情况下通过向对手的大本营移动而不断赢得更多积分，则会将这种策略添加到他的游戏策略中。

在2016年，同样使用这项基础技术，DeepMind研究人员构建了使得AlphaGo在东方围棋游戏中击败世界顶级玩家的系统。鉴于围棋游戏的巨大复杂性，许多专家曾认为这种突破不会这么早实现，而是起码将在未来十年内完成。

尤其是当涉及到队友之间的协调时，第一人称视频游戏的复杂程度是呈指数级的增长的。DeepMind的代理人通过大约45万轮游戏来学习如何夺得旗帜，在数周的训练中便积累了需要大约4年的游戏经验。起初，代理人惨遭失败。但通过学习突袭对手大本营时应该如何追随队友，他们逐渐了解到了这个游戏的精髓。

在完成这个项目以后，DeepMind的研究人员还设计了一个可以击败星际争霸II专业玩家的系统。在OpenAI实验室，研究人员构建了一个掌握Dota 2的系统，Dota 2这个游戏就像夺得旗帜的加强版本。今年四月，由五名代理人组成的团队击败了由五名世界上最优秀的人类玩家组成的玩家团队。

去年，人称Blitz的专业Dota 2玩家兼评论员William Lee与代理人进行过一对一比赛，当时的版本不允许团队战；在当时，William对此表示兴趣平平。但是当代理人继续学习比赛并且参加团队战时，他对代理人的技巧感到震惊。

他说：“我曾经以为机器不可能打五对五的，更不用说赢了。我绝对被征服了。”

这种技术在游戏中的应用令人印象深刻，但许多人工智能专家质疑它是否最终能转化为解决现实问题。专注于人工智能的乔治亚理工学院计算机教授Mark Riedl质疑到：DeepMind的代理人事实上并没有真正在合作。他们只是回应游戏中发生的事情，而不是像人类玩家那样互相交换信息。（甚至渺小如蚂蚁也可以通过交换化学信号进行协作。）

虽然结果看起来像是协作，但这是因为代理人作为个体本身是可以完全理解游戏中发生的事情。

负责该项目的另一位DeepMind研究员Max Jaderberg则表示：“如何定义团队合作并不是我想要解决的问题。但是一名代理人在对手的大本营坐等旗子出现这种情况，只有在依靠队友时才有可能出现。”

像这样的游戏并不像现实世界那么复杂。Riedl博士说到：“3D环境旨在使导航变得容易。Quake的战略与协调很简单。”

强化学习非常适合这类游戏。在视频游戏中，很容易识别成功的指标：获得更多的得分。但在现实世界中，没有人能保持得分。研究人员必须以其他方式定义成功。

这一点是可以实现的，至少在简单的任务中。OpenAI的研究人员训练了一个机器人手像孩子一样来操纵字母块——告诉它给你看字母A，它就会拿字母A给你看。

在谷歌机器人实验室，研究人员已经证明机器可以学习拾取随机物品，例如乒乓球、塑料香蕉，并将它们扔到几英尺外的垃圾箱里。这种技术或许在将来可以应用到亚马逊、联邦快递和其他公司运营的大型仓库和配送中心。目前，这些工作还是由人类工作者来完成的。

如DeepMind和OpenAI这样的实验室要想解决更大的问题，他们可能开始需要大量的计算能力。因为OpenAI的系统在几个月内通过完成需要多年时间才能完成的45万多轮游戏学会了玩Dota，这依赖于成千上万的计算机芯片。Brockman表示光买这些芯片就让实验室花费了数百万美元。

卡内基梅隆大学研究员Devendra Chaplot表示，由各种硅谷大拿，其中包括Khosla Ventures和科技亿万富翁Reid Hoffman在内资助的DeepMind和OpenAI可以负担得起这些计算能力。但是，学术实验室和其他小型企业不能。对某些人来说，他们担心的是那些资金充足的实验室将主宰人工智能的未来。

但即使是大型实验室也可能没有将这些技术转移到现实世界的复杂性所需的计算能力，因为这可能需要更厉害的人工智能形式——人工智能需要学得更快。虽然机器现在可以在虚拟世界中赢得夺旗游戏，但让他们在夏令营中开放的场地上赢得游戏仍然无望，并且这将持续相当长一段时间。