当前位置:主页 > 衡水科技 > 文章内容

新皇冠会员开户:无需调控而胜任不同任务 这种AI更濒临人类思考方式

日期:2019-12-03 浏览:

  纽约大学心理学与认知科学传授马库斯最近和人工智能企业“深层思维”(DeepMind)杠上了。继前不久在推特(Twitter)上质疑美国通用人工智能研究组织OpenAI的解魔方机械手之后,近日他又对“深层思维”新推出的《星际争霸2》智能体“阿尔法星”(AlphaStar)进化版提出六大质疑。此次,他的质疑点其实不是游戏默示自己,而是指向了更高的层面:未来通用智能研究的意义。  

  连年最酷功效都来自深度强化学习

  此次OpenAI推出的解魔方机器手,其实不是像以往一样使用专业算法来打点某一个特定任务(如果换一个任务,还须要从头编程),而是通过某种学习举措,对机器人进行训练,让机械手具备类人手的打点问题的身手。但马库斯却认为这个功效描述有误导,更恰当的描述应该是“用强化学习独霸魔方”可能是“用灵巧的机器人手独霸物体的进展”。

  “马库斯过于强调‘用强化学习独霸魔方’有点挑剔字眼,其实OpenAI魔方机器手和‘深层思维’发布的《星际争霸2》智能体‘阿尔法星’进化版都使用了深度强化学习技术。深度强化学习是目前公认的在现有技术中最有也许实现通用人工智能的技术。”天津大学智能与计算学部软件学院副传授郝建业评释说,目前机器学习有三大分支,监督学习、非监督学习和强化学习,深度学习属于监督学习里目前最主流的一类技术。深度强化学习是深度学习与强化学习的融合,是将深度神经网络整合到强化学习框架傍边。

  “近几年,深度强化学习生长迅猛,它在从事惩罚复杂、多方面和决策问题方面表现出巨大的潜力。目前深度强化学习技术次要应用在一些游戏、角逐中。”郝建业介绍,2016年,谷歌的“阿尔法围棋”(AlphaGo)击败了世界顶级围棋选手李世石、柯洁,轰动一时,成为人工智能领域的一个里程碑。“阿尔法围棋”的核心就在于使用了深度强化学习算法,使得计算机能够通过自对弈的方式不竭提升棋力。尔后又有脸书(Facebook)在DOTA2游戏中打败了顶级职业选手;CMU团队研发的德州扑克AI冷扑各人轻松击败顶级玩家。

  此外,“深层思维”还运用深度强化学习优化了数据中心的耗能;谷歌则支配深度强化学习完成深度神经网络的自动架构搜索,提出了AutoML供职,借此将机器学习作为一种供职推广到千家万户。在我国,对于深度强化学习技术的应用也很多,阿里、腾讯、百度等国内团队将深度强化学习应用到搜索、保举、营销、派单和路径结构等实际问题的决策中。

  最有也许实现通用人工智能的技术

  人工智能生长到此刻的高度,技术上较大的功臣应该属于深度学习算法。深度学习支配多层神经网络,从海量的数据中学习,从而实现对未来的料想,并使人工智能系统越来越智能。目前我们应用的安防监控、自动驾驶、语音辨认、百度地图等都是深度学习技术在图像视觉、语音辨认、自然语言理解等领域的应用。

  而强化学习也是目前机器学习领域的热门技术,与基于已知标签训练模型的监督学习不同,强化学习能够在没有计算机的明确指示下,像人一样实现自主学习。当到达制止的学习量之后,强化学习系统就能够料想出正确的成效。“强化学习的基本思想是,学习在不同环境和不同状态下,哪种行为能够使得预期所长最大化。”郝建业介绍,新版“阿尔法星”智能体就采纳了强化学习的自对战技术,其学习过程不须要数据标注,而是由处分函数进行主导。智能体获得处分得分或博得一场角逐,它会得到积极的反馈,智能体就会依照对战的成果好坏,来调整行为动作。这犹如婴儿学走路,会依照发生的成效好坏来调整行为动作。

  目前对通用人工智能的定义次要有两个特点,一是端对端的学习,二是任务自适应, 无需人类介入调控而胜任不同的任务。深度强化学习可以将深度学习的感知身手和强化学习的决策身手相结合,直接依照输入的信息进行控制,是一种更濒临人类思维方式的人工智能技术。在与世界的正常互动过程中,强化学习会通过试错法支配处分来学习,这跟自然学习过程非常相似。比方单手解魔方机器手,它也许须要支配深度学习的识图技术等看到魔方,而后还需强化学习的模型让机器手在不竭的试错过程中自主学习。在强化学习中,可以使用较少的训练信息,这样做的优势是信息更富足,并且不受监督者技能限制。深度强化学习朝构建对世界拥有更高级理解的自主系统又迈出了一步,这也是为什么说深度强化学习是目前公认的在现有技术中最有也许实现通用人工智能的技术。

  未来通用人工智能还需依托脑科学生长