2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

阿法狗围棋系统的简要分析

田渊栋

项盛文, 范红旗, 付强. 模式失配条件下连续时间控制系统的零控脱靶量估计误差分布. 自动化学报, 2018, 44(10): 1824-1832. doi: 10.16383/j.aas.2018.c170251
引用本文: 田渊栋. 阿法狗围棋系统的简要分析. 自动化学报, 2016, 42(5): 671-675. doi: 10.16383/j.aas.2016.y000001
XIANG Sheng-Wen, FAN Hong-Qi, FU Qiang. Distribution of Zero-effort Miss Distance Estimation Errors in Continuous-time Controlled System With Mode Mismatch. ACTA AUTOMATICA SINICA, 2018, 44(10): 1824-1832. doi: 10.16383/j.aas.2018.c170251
Citation: TIAN Yuan-Dong. A Simple Analysis of AlphaGo. ACTA AUTOMATICA SINICA, 2016, 42(5): 671-675. doi: 10.16383/j.aas.2016.y000001

阿法狗围棋系统的简要分析

doi: 10.16383/j.aas.2016.y000001
详细信息
    作者简介:

    田渊栋 脸书人工智能研究所研究员.主要研究方向为深度学习及计算机视觉.2013至2014年曾任谷歌无人车组研究员/软件工程师.2008年毕业于上海交通大学获硕士学位,2013年于美国卡耐基梅隆大学机器人系获博士学位,曾获2013年国际计算机视觉会议(ICCV)马尔奖提名.E-mail:yuandong@fb.com

A Simple Analysis of AlphaGo

More Information
    Author Bio:

    Research scientist in Facebook AI Research, working on deep learning and computer vision. Prior to that, he was a researcher/software engineer in Google Self-driving Car Team in 2013»2014. He received Ph. D. in Robotics Institute, Carnegie Mellon University in 2013, Bachelor and Master degrees in computer science in Shanghai Jiao Tong University. He is the recipient of 2013 ICCV Marr Prize Honorable Mentions.

  • 摘要: 谷歌的围棋系统阿法狗(AlphaGo)在三月的比赛中以4:1的成绩击败了围棋世界冠军李世石, 大大超过了许多人对计算机围棋程序何时能赶上人类职业高手的预期(约10~30年).本文在技术层面分析了阿法狗系统的组成部分, 并基于它过去的公开对局预测了它可能的弱点.
  • 图  1  AlphaGo的分析1

    Fig.  1  Analysis 1 of AlphaGo

    图  2  AlphaGo的分析2

    Fig.  2  Analysis 2 of AlphaGo

    表  1  阿法狗在快速走子中使用的盘面特征

    Table  1  Input features for rollout and tree policy

    Feature # of patterns Description
    Response 1 Whether move matches one or more response pattern features
    Save atari 1 Move saves stone(s) from capture
    Neighbour 8 Move is 8-connected to previous move
    Nakade 8 192 Move matches a nakade pattern at captured stone
    Response pattern 32 207 Move matches 12-point diamond pattern near previous move
    Non-response pattern 69 338 Move matches 3 £ 3 pattern around move
    Self-atari 1 Move allows stones to be captured
    Last move distance 34 Manhattan distance to previous two moves
    Non-response pattern 32 207 Move matches 12-point diamond pattern centred around move
    (Features used by the rollout pollcy (the frst set) and tree policy (the frst and second sets). Patterns are based on stone colour (black/white/empty) and liberties (1, 2,≥3) at each intersection of the pattern.)
    下载: 导出CSV

    表  2  不同版本阿法狗的等级分比较(等级分由一场内部锦标赛决出)

    Table  2  Results of a tournament between di®erent variants of AlphaGo

    Short name Policy network Value network Rollouts Mixing constant Policy GPUs Value GPUs Elo rating
    αrvp pσ vθ pπ λ= 0.5 2 6 2 890
    αvp pσ vθ - λ= 0 2 6 2 177
    αrp pσ - pπ λ= 1 8 0 2 416
    αrv [pτ] vθ pπ λ= 0.5 0 8 2 077
    αv [pτ] vθ - λ= 0 0 8 1 655
    αr [pτ] - pπ λ= 1 0 0 1 457
    αp pσ - - - 0 0 1 517
    Evaluating positions using rollouts only (αrp; αr), value nets only (αvp; αv), or mixing both (αrvp; αrv); either using the policy network ρσ(αrvp; αvp; αrp) or no policy network (αrvp; αvp; αrp), that is, instead using the placeholder probabilities from the tree policy pτ throughout. Each program used 5 s per move on a single machine with 48 CPUs and 8 GPUs. Elo ratings were computed by BayesElo.
    下载: 导出CSV
  • [1] Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbrenner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489
    [2] Tian Y D, Zhu Y. Better computer go player with neural network and long-term prediction. In: International Conference on Learning Representation (ICLR). San Juan, Puerto Rico, 2016.
  • 期刊类型引用(8)

    1. 董良振,田建艳,杨胜强,陈海滨. 基于光照校正和图像融合的零件表面图像增强. 计算机工程. 2024(06): 245-254 . 百度学术
    2. 王琛,张凌云,刘波,张航. 基于无人机图像的城市道路停车巡检方法. 交通信息与安全. 2024(04): 90-101 . 百度学术
    3. 徐少平,林珍玉,陈孝国,李芬,杨晓辉. 采用多通道浅层CNN构建的多降噪器最优组合模型. 自动化学报. 2022(11): 2797-2811 . 本站查看
    4. 苏素平,李虹,孙志毅,孙前来,王银. 无人机图像的输电线断股检测方法研究. 太原科技大学学报. 2021(01): 32-36 . 百度学术
    5. 索岩,崔智勇. 基于中国剩余定理的高动态图像可逆数据隐藏. 计算机仿真. 2021(01): 167-171 . 百度学术
    6. 张媛媛,张红英. 结合饱和度调节的单曝光HDR图像生成方法. 吉林大学学报(理学版). 2021(02): 309-318 . 百度学术
    7. 曹义亲,何恬,刘龙标. 基于改进LSD直线检测算法的钢轨表面边界提取. 华东交通大学学报. 2021(03): 95-101 . 百度学术
    8. 吴卓钊,范科峰,莫玮. 多尺度权重评估的MSRCR混合曝光成像算法. 计算机工程与应用. 2021(17): 224-229 . 百度学术

    其他类型引用(14)

  • 加载中
图(2) / 表(2)
计量
  • 文章访问数:  4346
  • HTML全文浏览量:  887
  • PDF下载量:  4902
  • 被引次数: 22
出版历程
  • 收稿日期:  2016-04-14
  • 录用日期:  2016-05-10
  • 刊出日期:  2016-05-01

目录

    /

    返回文章
    返回