AlphaGo深度揭秘pc软件 文章资讯 手机软件
您当前的位置→图文中心新闻资讯业界快讯AlphaGo深度揭秘

AlphaGo深度揭秘


2017/5/26  编辑:admin 来源:本站整理   
今日, 就在乌镇围棋峰会人工智能高峰论坛上, AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)和DeepMind首席科学家大卫·席尔瓦(David Silver)就在论坛上透露了有关联于AlphaGo的重要信息, 以及AlphaGo究竟意味着什么?让人们能详细了解到AlphaGo背后的秘密。   AlphaGo是什么?  AlphaGo 是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序, 是围棋史上最具实力的选手之一。 2016 年 3 月, 就在全世界超过一亿观众的关注下, AlphaGo 经过5局对弈, 最后以 4 比 1 的总比分战胜了围棋世界冠军李世石, 这场比赛成为了人工智能领域的一个重要里程碑。 过去曾有专家预测人工智能有请求需要十年的时间才有有可能战胜人类职业选手, 就在这场比赛之后, AlphaGo 凭借其“充满创意而又机智”的下法, 跻身围棋界最高职业称号——职业九段行列, 成为历史上首个获得这一荣誉的非人类棋手。   AlphaGo怎么才能来进行训练?  会一直不断以来, 围棋就被认为是传统游戏中对人工智能最具挑战性的项目。 这不只只是因为围棋包含了庞大的搜索空间, 更是因为对于落子详细位置的评估难度已远远超过了不复杂的启发式算法。   为了应对围棋的巨大复杂性, AlphaGo 采用了一种新颖的机器学习技术, 结合了监督学习和强化学习的优势。 可以通过训练形成一个策略网络net(policy network), 将棋盘上的局势作为输入信息, 并对所有可行的落子详细位置生成一个概率分布。 之后, 训练出一个价值网络net(value network)对自我对弈来进行预测, 以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准, 预测所有可行落子详细位置的结果。 这两个网络net自身都十分强大, 而 AlphaGo将这两种网络net整合进基于概率的蒙特卡罗树搜索(MCTS)中, 实现了它真正的优势。 最后, 新版的AlphaGo 产生大量自我对弈棋局, 为下一代版本提供了训练数据信息, 此过程循环往复。   AlphaGo 怎么才能决定落子?  就在获取棋局信息后, AlphaGo 会根据记录策略网络net探索哪个详细位置同一个时间具备高潜就在价值和高有可能性, 进而决定最佳落子详细位置。 就在分配配置的搜索时间结束时, 模拟过程中被系统system最频繁考察的详细位置将成为 AlphaGo 的最后选择中。 就在经过先期的全盘探索和过程中对最佳落子的会一直不断揣摩后, AlphaGo的搜索算法就能就在其计算能力之上加入近似人类的直觉判断。   历代AlphaGo的数据信息对比  DeepMind把AlphaGo粗略分成几个版本:  第一代, 是击败樊麾的AlphaGo Fan。 与Zen/Crazy Stone等之前的围棋软件相比, 棋力要高出4子。   第二代, 是击败李世石的AlphaGo Lee。 与上一代相比, 棋力高出3子。   第三代, 是柯洁如今的对手, 也是年初60连胜的:AlphaGo Master。 相比于击败李世石的版本, 棋力又再次提高水平3子。 Alphago  新版AlphaGo比旧版AlphaGo要“强三子”令柯洁十分惊讶, 江铸久和芮乃伟特意去寻找到哈萨比斯确认这个“三子”到底是什么意思, 哈萨比斯明确表示是就在棋盘上先摆上三颗子。 芮乃伟私下笑说我自己愿意被让三个与AlphaGo一战。 ​​​​  AlphaGo Lee和AlphaGo Master有着根本不同。   新版AlphaGo Master使用单TPU运算, 拥有更强的策略/价值网络net, 由于应用了更高效的算法, 运算量只有上一代AlphaGo Lee的十分之一。 所以单个TPU机器足以支撑。   旧版的AlphaGo Lee使用50个TPU来进行计算, 每次搜索计算后续50步, 计算速度为10000个详细位置/秒。   作为对比, 20年前击败卡斯帕罗夫的IBM深蓝, 可以能够搜索计算一亿个详细位置。 席尔瓦表示, AlphaGo并不有请求需要搜索那么多详细位置。   根据记录公开资料推测, 此次AlphaGo2.0的技术原理与之前有着巨大不同:  1. 放弃了监督学习, 没有再用人的3000万局棋谱来进行训练。 这本是AlphaGo最亮眼的算法, 也是就在今天主流机器学习不可避免的核心条件:依赖于优质的数据信息, 就在这个特定问题下就这么被再次突破了。   2. 放弃了蒙特卡洛树搜索, 不会再来进行暴力计算。 理论上, 算法越笨, 就越有请求需要暴力计算做补充。 算法越聪明, 就可以能够很大很大减少暴力计算。 从AlphaGo 2.0的“马甲”Master的历史行为看, 走棋非常迅速, 约就在每10秒钟就走棋一步, 如此速度很有可能是放弃了暴力的计算。   3. 极大地强化了增强学习的作用, 之前敲边鼓的算法, 正式成为扛把子主力。 想想看有多励志:两台白痴机器, 遵守走棋和获胜规则, 从随机走棋现在开始日夜切磋, 总结经验, 会一直不断批评和自我批评, 一周后终成大器。   就在这样的算法下, AlphaGo 2.0对计算资源开销极小, 把当前棋局输入神经网络net, 电流流过, 输出就是最佳的走棋方案。 我猜测如此算法下, 有有可能只只依靠一个GPU工作, 每一步棋消耗的能源接近人的大脑。   换句话说, DeepMind的目标是构建通用人工智能。 所谓通用人工智能, 最先是AI具备学习的能力, 其次能举一反三, 执行各种不同的任务。 怎么才能抵达这个目标?哈萨比斯说有两个必备工具:深度学习、强化学习。   AlphaGo就是深度学习和强化学习的结合。 AlphaGo也是DeepMind迈向通用人工智能目标的一步, 尽管现就在它更多的专注于围棋领域。   哈萨比斯表示, 真的希望可以通过AlphaGo的研究, 让机器获得直觉和创造力。   这里所谓的直觉, 是可以通过体验直接获得的初步感知。 再也不能够表达出来, 可可以通过行为确认其存就在和正误。   而创造力, 是可以通过组合已有知识产生新颖或独特想法的能力。 AlphaGo显然已展示出了这些能力, 尽管领域有限。
相关文章
  • Visual Basic 6.0有多少个版本?
  • VMware和Virtual PC大比拼
  • A Sharper Scaling图片放大不失真软件使用方法
  • 国行版的Galaxy S8手机推送了系统更新
  • 三星Galaxy Note8 会爆炸吗?
  • Fireball火球病毒正在传播感染,该如何查杀?
  • 为什么转换到Visual Studio 2017如此 “容易”
  • 柯洁完败于AlphaGo后落泪哽咽:它太完美我看不到希望
  • 人机大战最终战:柯洁中盘认输 AlphaGo获胜
  • 其实三星真 旗舰在此,Galaxy Note8曝光前面板
  • 发表评论
    阅读排行
    1. 招商银行无锡市ATM机也可以通过"...
    2. 微信公众号转载文章将变为分享样...
    3. 今天开始,微信小程序码不方了,...
    4. 什么快递最快最好最便宜,比较好的...
    5. 8.26日的时候云南盐津洪水,云南...
    6. AKG的新圈铁简直了:AKG N30体验...
    7. 微软Surface Pro 5什么时候上市?...
    8. 增城禁电动车!已成事实!
    9. 阿里巴巴创始人马云:美国的钱都...
    10. 华为代工谷歌发布Nexus 6P新机
    相关热门
    1. iPhone8和三星S8哪个好?哪个更好用
    2. 微信显示IPhone8技巧,微信朋友圈怎么显示来自iPhone8
    3. 苹果8怎么购买?iphone8抢购攻略
    4. iPhone8外形出炉,快来围观
    5. Photoshop 让图片呈现出HDR效果,PS软件将人像照片调出HDR效果
    6. iPhone8 还没发布就出现严重问题 !
    7. 苹果手机怎么恢复删除短信?iPhone被删除短信还能找回吗
    8. 苹果手机怎么恢复微信聊天记录?教你快速找回iPhone微信记录
    9. 升级苹果iOS11 Beta3“设置”IPHONE手机全变英文怎么解决
    10. 苹果手机如何扫描信用卡?iPhone手机扫描信用卡教程
    网站帮助 - 广告合作 - 下载声明 - 网站地图
    88lifa