《阿尔法狗再进化!通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级程序》

  • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
  • 编译者: 姜山
  • 发布时间:2017-12-08
  • 在谷歌发起“寻找围棋小先锋”全国青少年围棋推广活动的2天之后,谷歌母公司旗下DeepMind团队再次取得突破性成果,人类在棋类游戏上或许已经无法挑战人工智能。

    继今年10月在《自然》杂志上发表论文正式推出人工智能围棋程序AlphaGo Zero后,Alphabet旗下机器学习子公司DeepMind团队近日又发表论文称,最新版本的 AlphaZero 在经过不到一天的训练后,“令人信服地”打败了国际象棋和日本将棋顶尖的计算机程序 。

    DeepMind称,AlphaGo Zero算法在围棋上实现了超人类的成绩,使用深度卷积神经网络,通过强化学习进行自我对弈训练。此前的的Alpha Go需要与人类进行数千次对弈,从中获取数据,但AlphaGo Zero从零开始,只有空白棋盘和游戏规则,达到了超人的性能,以100-0战胜了曾打败李世乭的Alpha Go。

    近日,该团队发文表示,在国际象棋和日本将棋上采用了AlphaGo Zero 的通用化版本AlphaZero(只输入游戏规则,没有输入任何特定领域的知识)。研究显示,通用的强化学习算法,可以实现从零开始,在许多具有挑战性的领域超越人类水平。

    该团队在上述三种棋类游戏使用相同的算法设置、网络架构和超参数,为每一种棋类游戏训练了独立的 AlphaZero。训练从随机初始化参数开始,进行了 70 万步(批尺寸为 4096),使用 5000 个第一代 TPU 生成自我对弈棋局和 64 个第二代 TPU 训练神经网络。

    结果显示,在国际象棋中,AlphaZero 仅仅用 4 小时(30 万步)就超过了 Stockfish。在日本将棋中,不到 2 小时(11 万步),AlphaZero 就超过了 Elmo;在围棋中,AlphaZero 用 8 小时(16.5 万步)超越 AlphaGo Lee((与李世乭对弈的版本)。

    Stockfish是2016 年 Top Chess Engine Championship(TCEC)世界冠军。Elmo是 Computer Shogi Association(CSA)世界冠军 Elmo。

    人工智能领域的标志性事件是 1997 年深蓝(Deep Blue)击败了人类世界冠军卡斯帕罗夫。在之后的 20 年内,国际象棋的计算机程序水平一直稳定处于人类之上。Deepmind团队称,当前国际象棋最好的程序都是基于强大的搜索引擎,能搜索数百万个位置,利用人类专家手动编写的函数和复杂的特定领域适应性。Stockfish和深蓝这种强大的国际象棋程序也使用了类似的架构。

    在计算复杂性方面,日本将棋比国际象棋要更难。将棋棋盘更大,任何被吃的棋子都可以改变立场,被放在棋盘的其他位置。之前,最强的将棋程序,如世界冠军 Elmo 也是到 2017 年才打败人类世界冠军。这些程序和计算机国际象棋程序采用了相似的算法,基于高度优化的α-β搜索引擎,并针对特定领域进行调整。

    AlphaZero则完全不同,使用了一个通用的蒙特卡罗树搜索(MCTS)算法,通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树。AlphaZero 是一个通用的强化学习算法——最初为围棋设计,在除了给定象棋规则之外没有任何领域知识的情况下,可以在几小时内达到更优的结果,少了几千倍的搜索量。此外,该算法不需要修改就可以应用到更具挑战性的日本将棋上,并再次在数小时内超过了当前最好的程序。

    谷歌大脑GoogleBrain负责人Jeff Dean也曾介绍过深蓝和AlphaGo的区别。他称,深蓝是通过蛮力搜索,知道接下来该怎么走。但围棋比象棋复杂,由于其复杂性很难穷尽算法,“如果没有足够的计算能力去探索围棋的世界,那么你需要帮助程序认识游戏过程中的规律以及怎么样才能够像人一样有本能的去思考如何走棋。”

    不过,Deepmind团队最新公布的Alpha Zero又在AlphaGo Zero上进行了升级。首先,AlphaGo Zero假设对弈的结果为胜/负两种, 会估计并最优化胜利的概率;而 AlphaZero 则会估计和优化期望的结果,会同时考虑平局或其它可能的结果。

    对于围棋而言,旋转棋盘和镜像映射都不会改变其规则。AlphaGo 和 AlphaGo Zero 都运用了这一事实。通过为每个位置生成8次对称,来增加训练数据。 但国际象棋和日本将棋是不对称的,因此AlphaZero不会增加训练数据,也不会在进行蒙特卡罗树搜索算法时转变棋盘位置。

    此外,AlphaZero的自我对弈由之前所有迭代过程中最优玩家生成。每次训练后,新玩家的性能与之前的最优玩家对比,如果新玩家以55%的胜率胜出,便取代之前的最优玩家。相反,AlphaZero 只是维护单个神经网络连续更新最优解,而不是等待一次迭代的完成。

    最后,AlphaGo Zero 通过贝叶斯优化(Bayesian optimisation)搜索超参数,而 Alpha Zero 对所有的对弈重复使用相同的超参数,无需进行针对特定某种游戏的调整。

    DeepMind评估了经充分训练的AlphaZero 在国际象棋、将棋和围棋上分别和与Stockfish、Elmo 和经过 3 天训练的 AlphaGo Zero 进行的 100 场比赛结果,比赛时间控制在一步一分钟。AlphaZero 和 AlphaGo Zero 使用 4 个 TPU 的单个机器进行比赛。Stockfish 和 Elmo 使用 64 个线程和 1GB 的哈希表进行比赛。AlphaZero “令人信服地”打败了所有的对手,没有输给 Stockfish 任何一场比赛,只输给了 Elmo 八场。

    除了继续强化AlphaGo的技能,谷歌也正推广着围棋教学。

    12月4日,谷歌宣布与聂卫平围棋道场共同发起“寻找围棋小先锋”全国青少年围棋推广活动,该活动将包含针对全国4—18岁小棋手的全国青少年围棋公开赛,公开赛将在全国6个城市举行分站赛并于北京举行总决赛。皮查伊和谷歌就是要在这些孩子当中发现最具潜力的“围棋先锋”,并用DeepMind发明的AlphaGo围棋教学方法培训他们。

    谷歌 CEO 桑达尔·皮查伊透露,DeepMind将会基于AlphaGo发明一套围棋教学工具,很快可以免费下载,让所有人学习AlphaGo如何下棋。他还表示,这套围棋教学工具中的数据是从20多万场人类棋手比赛,以及75场AlphaGo和人类的对抗中积累的。

相关报告
  • 《天然气管道建设应坚持全国“一盘棋”》

    • 来源专题:能源情报网信息监测服务平台
    • 编译者:guokm
    • 发布时间:2021-04-12
    • 随着国家石油天然气管网集团有限公司(以下简称“国家管网公司”)全面完成对我国主干油气管网资产的整合,我国油气体制改革又迈出了关键一步,为解决长期困扰行业的“多头规划、重复建设、分散输送”问题做出了改革示范。然而,在各地能源结构转换需求迫切、各级政府大力推动域内管网建设的背景下,省和地市级的天然气高压支线管网规划、建设和运营又开始面临同样的问题。 中央企业“三桶油”已经将天然气长输管网、沿海LNG接收站、储气库等基础设施移交给国家管网,但仍保留一定体量的地级市域支线管网资产,而由各省级地方政府主导的省级管网的投资、建设也在持续建设和布局之中,而且存在逆向国家油气体制改革的现象发生,在局部地区出现同一区域内天然气管线重复建设、无序发展的势头,这无疑又将给区域天然管网的集约建设利用和未来国家管网公司的高效整合对接带来难题。 以山东省为例,在国家管网公司成立后,山东省拟规划建设的天然气管网与已运营多年的区域高压支线管网之间的矛盾日益凸显。近日,山东省东南管道天然气有限公司(以下简称“东南管道公司”,由中石化集团公司与山东省国资成立的合资公司)在济宁市在建的山东管网南干线天然气管道宣布开工并筹划建设鲁豫皖联络线输气管道,该管线设计压力10MPa,全长495km,途径日照、临沂、济宁、菏泽等4地市,其中,在济宁市全长181.7km,与济宁中石油昆仑能源有限公司(以下简称“济宁昆仑公司”)正在建设运行中的“中俄东线-济宁支线”和“济宁西部五县高压天然气支线”管道在路径上基本重合。 根据相关资料显示,济宁昆仑公司建设的中俄东线-济宁支线全长193km,设计输气能力30亿方/年。该项目已于2018年11月份立项核准,按照济宁市政府要求,2020年12月30日举行开工仪式。该公司建成运行的“西部五县”高压支线管道,设计压力10MPa,年输气能力超过23亿方,已于2013年投产运行了8年,实际输气量每年仅为3亿方。据统计,2020年济宁市全部天然气消费量仅为9亿方。 现在东南管道公司拟投资逾30亿元,在目前已经基本实现区域内高压天然气“互联互通一张网”、潜在增量输气能力得到保障的济宁市境内,规划建设长达181.7km的管道, 这条新投资的天然气管道能够带来的经济和社会效益让人存疑。 今年3月,国家能源局山东监管办公室对山东省济宁市境内天然气管网运营、规划建设情况进行了监督调研,对新规划的东南管道重复建设、管道安全隐患、土地资源浪费等问题做出了初步认定。目前,关于省管网整体规划与地区存量管网的统筹协调问题,山东省、济宁市能源局、两家涉及企业仍在沟通和交涉之中。 国家推行“X+1+X”模式下的天然气管网改革,实现“多气源、一张网、多配售”天然气基础设施保障格局,突出了国家对于天然气行业市场化、集约化的发展导向,从价值链角度明确了不同产业环节的市场组织和竞争方式,然而代表天然气中游管网输配系统的唯一性的“1”,不仅包括国家级天然气管网,也包括省级管网、区域性管网及城市燃气配送管网。在天然气管网建设和输配环节,国家管网、省管网、“三桶油”及其他城市燃气企业的存量管网如何进一步明确定位、真正实现管网“全国一盘棋”的集约输送和公平服务,还需要政策层面进行进一步的指导和规范。 专家建议: 一、坚持全局观念,避免恶性竞争。天然气管网规划建设应坚持“全国一盘棋”的观念,严格按照国家油气体制改革要求,发改委、国家能源局发挥顶层设计功能,对全国管网进行战略规划,对市场资源进行合理调配,国家管网公司应发挥宏观管理职能,根据全国天然管网设施建设需要进行合理推进,避免管道运行风险、国有资产重复投资与无序竞争,尤其要在省级管网层面,推动省级管网以市场化方式融入国家管网,建立公平有序、运行稳定的天然气市场环境。 二、科学合理规划,促进行业健康发展。建议中央及省规划管理部门,在项目审批过程中,严格落实相关政策要求,综合本地区天然气近期、远期需求情况,统筹考虑全国和各省经济社会发展、沿线地区需求、管网运行安全、投资高效利用等因素,对天然气管道项目加强路由规划审核,避免管道重复敷设,促进区域天然气行业健康发展。 三、央企之间应建立沟通协调机制,推动整体协同发展。建议有关企业在管网设施规划建设、企业经营发展过程中,进一步形成整体协同发展观念,避免各自为政、恶性竞争等现象发生,在公平公正的市场环境下,探索中央和地方、上下游企业之间的合作、协同发展新模式,公平竞争、互利共赢,促进全国天然气管网的合理有序发展,推动中国大气环境治理和人民生活质量的不断提升。
  • 《黄金水道释放黄金效应长江经济带谋划发展新棋局 》

    • 来源专题:长江流域资源与环境知识资源中心 | 领域情报网
    • 编译者:changjiang
    • 发布时间:2017-08-17
    • 2017-07-25 11:02来源: 第一财经 分享到: 万里长江浩浩荡荡,这条奔流千年的大河,被称为中国的“金腰带”,其沿线的省市是中国重要的经济走廊。很长时间以来,经济发展是这一流域的第一政策目标。 转折点发生在2016年,这一年的1月5日,习近平总书记在重庆调研,召开了推动长江经济带发展座谈会,并为长江经济带发展定了向、定了调:“当前和今后相当长一个时期,要把修复长江生态环境摆在压倒性位置,共抓大保护,不搞大开发。” 同年的9月,《长江经济带发展规划纲要》正式印发,其中最引人关注的,也是把生态优先放在了第一位,提出长江经济带要“生态优先,绿色发展”。 当然,新一届中央领导集体对长江经济带的重视,并提出系列决策信号,发生在更早的时候。 2013年7月,习近平在湖北调研时强调,“长江流域要加强合作,充分发挥内河航运作用,发展江海联运,把全流域打造成黄金水道。”自此,长江流域的开发正式被国家层面提上议事日程,“黄金水道”也成为决策层一再提及的“关键词”。 2014年,政府工作报告明确提出:“依托黄金水道,建设长江经济带。”这意味着这一战略被正式确定为国家战略。 此后,关于长江经济带的各种规划纷纷出台,沿线11省市也根据各自定位出台了配套措施,积极融入长江经济带,谋划发展新棋局。对于这条经济带上的城市、企业和居民来说,也正在发生各种改变。 黄金水道释放黄金效应 长江经济带覆盖上海、江苏、浙江、安徽等11省市,面积约205万平方公里,人口和经济总量均超过全国的40%,长江上中下游间经济社会发展很不平衡,如何找准定位,在协同发展的同时寻找差异化发展,是首先要解决的问题。 区域经济专家、湖北省社科院副院长秦尊文在接受第一财经记者采访时表示,长江经济带横跨中国东中西三大区域,沿线各省市的经济发展严重不平衡,各个行政主体之间又存在程度不一的行政壁垒,如能借建设长江经济带的东风打破行政壁垒,在市场对资源配置起决定作用条件下实现各要素的自由流动,长江经济带规划提出的战略目标可更快实现。 长江是我国连接东中西部的重要水路通道,建设长江经济带自然脱离不了水道本身。最近几年,依托长江黄金水道,构建沿海与中西部相互支撑新格局,打造陆海双向对外开放新走廊,以上海带动全流域、以武汉带动中游、以重庆带动上游地区发展的新态势已见雏形。 作为“龙头”的上海,携经济实力雄厚、联江通海的优势,凭借国家首个自贸区的高层级开放平台,打造长江经济带的新引擎。 重庆则把“渝新欧”专线延伸到长江岸边的港口,实现长江经济带和丝绸之路经济带的无缝对接,“龙尾”变身开放前沿。 湖北肩挑长江经济带两端,成为长江经济带的“龙腰”。多项重大国家战略和40多项国家级的改革试点在武汉聚焦落地。只有“龙腰”壮了,长江经济带才能更加活跃。 武汉作为长江经济带的中心城市,这几年更是发生了巨大变化。 2012年7月21日,在滂沱暴雨中,习近平卷起裤腿、打着雨伞视察武汉新港阳逻核心港区。他强调,要大力发展现代物流业,长江流域要加强合作,充分发挥内河航运作用,发展江海联运,把全流域打造成黄金水道。 此时的武汉新港货运吞吐量突破亿吨不久,集装箱吞吐量仅76万标箱,“江海直达”航线亦刚刚复航。与重庆、上海相比,武汉港口码头的吞吐力、经济腹地的支撑力、航线网络的辐射力、航运服务的软实力,仍有较大差距。 面对机遇与挑战,武汉市投入港口等基础设施建设资金153亿元,完成杨泗港搬迁,形成以阳逻港集装箱为核心,汉南、江夏汽车滚装加快发展,全域重件、散货和液体等门类齐全的港口群,集装箱吞吐能力达340万标箱。 经过5年时间的发展,阳逻港集装箱吞吐量增长至112万标箱,成为长江中上游最大的集装箱港口,迈入世界内河集装箱港口第一方阵。汽车滚装能力从无到有,2016年运输64万辆汽车,成为全国第三、内河第一的汽车物流集散分拨中心。 流域合作方面,武汉新港以“阳逻港至上海洋山港的江海联运航线”为主轴,辐射上游宜宾、泸州和重庆,中游宜昌、荆州、岳阳和九江,以及下游上海、舟山,港口“朋友圈”不断扩大。武汉还开行“泸汉台”、“武汉-东盟四国”、“武汉-日韩”等近洋航线,通达7个国家和地区,深度融入“一带一路”。 位于长江上游的重庆,不产一粒咖啡豆,却把咖啡买卖做到了几十亿元,更是得益于立体交通枢纽、国家一类开放口岸、物流保税区等综合平台的开放格局。 地处“一带一路”和长江经济带连接点上的重庆,区位优势明显。近年来,重庆大力推动内陆开放高地建设,形成了同时拥有港口、铁路、机场三大区域性交通枢纽和水运、铁路、航空三个国家一类开放口岸,以及三个物流保税区为载体的“三合一”综合平台的开放格局。 5月16日,随着首艘集装箱货轮入港装卸货物,重庆龙头港正式开港。该港是重庆融入“一带一路”和长江经济带的国家战略重点工程 以咖啡产业为例,重庆紧邻咖啡生产大省云南和占世界咖啡产量三分之一的东南亚地区,通过长江黄金水道、东盟国际公路物流大通道、渝新欧等交通区位,既可辐射中国,联通咖啡原材料境外供应方越南等地,还可由渝新欧直达咖啡主要消费市场的欧洲腹地。 上海国际航运研究中心秘书长真虹说,随着长江“黄金水道”功能的凸显,黄金水道正在释放“黄金效应”。目前沿线的亿吨港已达14个,干线货物年通过量突破23亿吨。但长江经济带仍面临着岸线过度开发、船舶标准化程度低以及航运市场无序竞争的问题,还需各方携手解决。 “飞地经济”缩小地区差异 横跨中国东中西三大区域的长江经济带,还为产业转移带来新的契机。近期,由国家发改委、国土资源部等八部委联合发布的《关于支持“飞地经济”发展的指导意见》(下称《意见》),鼓励江浙沪到长江中上游地区共建产业园区,发展“飞地经济”,共同拓展市场和发展空间,实现利益共享。 所谓“飞地经济”,是指两个相互独立、经济发展存在落差的行政地区打破原有行政区划限制,通过跨空间的行政管理和经济开发,实现两地资源互补、经济协调发展的一种区域经济合作模式。 长江经济带区域发展不平衡,长江上中下游不同地区存在明显的产业落差,因此具备产业转移的强大动力。近年来,长三角下游地区土地、能源、劳动力成本快速攀升,企业利润空间被严重挤压,很多企业计划将生产环节配置到成本更低的地区。在此情形下,依托黄金水道的交通优势和联动效应,推动长江经济带中上游地区承接下游及沿海地区的产业链转移,对于发挥各地的比较优势具有重要的意义。 毫无疑问,在长江经济带上,长三角是产业转移的主要输出地。随着城市的发展和功能的完善,一些大城市也面临着疏解非核心功能的任务,这也将带来大量的产业转移需求。 而位于长江中游城市群的湖北和湖南两省,则明确提出了承接产业转移的定位,要成为产业转移的重要节点。 湖北省统计局副局长叶青表示,湖北省黄冈市在推进黄梅小池与江西九江跨江合作的同时,积极支持浠水散花主动对接黄石,联合开发建设浠水散花跨江合作示范区。荆州市跨江布局,谋划建设江南新区,鼓励监利白螺积极对接湖南岳阳,探索建立临江工业(物流)园区。武汉市经济技术开发区托管洪湖市新滩工业园区,支持五峰等县市在沿江地区发展飞地经济。 湖南大学经贸学院教授李琳建议,建立湖南与长三角政府层面的常态化协调机制,引导各地政府研究制定促进飞地园区落地和发展的相关地方法规和规章;将建设飞地园区列入湖南对接长三角、融入长江经济带的区域合作重点专题。 赛迪顾问研究报告认为,“飞地经济”打破了地域界限,增加了合理布局的空间,能够最大限度在更大范围内发挥产业的集聚功能和规模效应,优化资源配置。 秦尊文称,《意见》鼓励合作方共同设立投融资公司,采取政府和社会资本合作(PPP)等模式,吸引社会资本参与园区开发和运营管理。合作机制的完善,意味着飞地经济下一步的运作将更加市场化,既可有合资公司,又可有产业招商模式。国家层面鼓励多方通过PPP等模式嵌入“飞地经济”,让更多的社会资本参与到合作开发中,合作共赢,为长江经济带的建设发展提供了更多新的动力。 生态优先的大冶市样本 长江经济带如何建设,决策层思路非常清晰,那就是生态优先、绿色发展摆在首位,决不走“先发展再治污”的老路。 但在经济飞速发展的进程中,发展和生态就如同“鱼和熊掌”,难以兼得,如何打破这一僵局?长江经济带节点城市——湖北黄石正是这条绿色发展之路的践行者。 黄石市曾是典型的资源型城市,辖区内的大冶市更是中国的“千年铜都”。“古今一洪炉,举世无双冶”,大冶一度沉浸在挖矿掘金的美梦里——从上世纪末到本世纪初,大冶500多座矿山上,有近10万人参与采矿。当时,每9个大冶人中,就有1个从事矿业开采。矿产资源业一度成为大冶的支柱产业,大冶70%的工业经济总量、60%的税收、70%的就业人口来源于资源型产业。 但地下财富源源不断地被运走,留下的是残垣断壁、满目疮痍。 大冶市龙角山镇是一座依托矿区建起来的小镇,资源枯竭前,整个矿区有近万名矿工。曾经,这处不起眼的小山村有电影院、医院和宾馆,因为消费能力高,矿工们甚至比城里人更早看到最时髦的电影。 1994年,龙角山矿发生尾砂坝溃塌;次年,龙角山矿的大部分职工,一窝蜂地“逃离”了坚守40多年的家乡,只剩下那些苍老的矿山,遗留着矿渣和坑口。龙角山随后撤镇改村。 在大冶,龙角山镇并不是唯一因矿产枯竭而从地图上消失的乡镇建制。加上铜绿山、铜山口,昔日的“三大矿业重镇”,已在大冶行政版图上隐没了踪迹。 自2008年起,大冶果断决定向全市所有“五小”(小选矿、小洗矿、小冶炼、小选金、小矿山)企业亮出“红牌”,断电源、拔杆子、拆机子、毁池子、拆房子、平场子,全面斩断“五小”企业污染源。 大冶市大箕铺镇的东角山下,矿老板曹洪俊曾经在本地名噪一时,如今却做起了有机农业。站在鑫东生态养殖园楼顶鸟瞰,一栋栋整齐划一的猪舍,一排排望不到边际的豇豆……而在山脚下,一辆闲置的运煤车斜倒在葱葱郁郁的山脚下,似乎揭示着这里的过去。 曹洪俊说,他的养殖园原来是一家五小冶炼厂,占地20亩,2011年遭停厂拆除,于是他就利用废弃厂区的旧址建了一个农垦博物馆,在有机农业基础上,加入生态农业休闲体验游的业务。 同样的变化,正在大冶各镇各村争相上演。曾经是大冶煤矿第一重镇的还地桥镇充分发挥区位优势,积极投身到武汉城市圈“生态旅游新区、养生养老新城”的建设大潮中,该镇已建成各类乡村旅游项目30多个,年创产值1.5亿元。2016年,还地桥镇农民人均收入达到17733元。 从“地下”到“地上”,从“黑色”到“绿色”,打造一座“不开矿的城市”的“大冶梦”正在成为现实。近5年来,大冶旅游总收入从3.6亿元增加到24亿元,年均增长46.1%。2016年,大冶全市完成地区生产总值540.5亿元,规模以上工业增加值完成230.5亿元,同比均增长8.1%;全国百强排名从88位跃升至83位,实现了“5年5进位”。