当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 强化学习非常适合实现自主决策,相比之下监督学习与无监督学习技术则无法独立完成此项工作。强化学习在人工智能领域长久以来一直扮演着小众性角色。然而,过去几年以来,强化学习正越来越多地在各类AI项目当

强化学习非常适合实现自主决策,相比之下监督学习与无监督学习技术则无法独立完成此项工作。强化学习在人工智能领域长久以来一直扮演着小众性角色。然而,过去几年以来,强化学习正越来越多地在各类AI项目当中发挥令人瞩目的作用。其最突出的应用平台正是在计算代理的环境背景性决策场景当中,负责判断最佳行动。

凭借着试错法来最大程度提升算法报酬函数,强化学习得以在IT运营管理、能源、医疗卫生、同类型、金融、交通以及贸易等领域构建起大量自适应性控制与多代理自动化应用。其可负责对传统重点领域(机器人、游戏以及模拟)的AI方案进行训练,并有能力在边缘分析、自然语言处理、机器翻译、计算机视觉以及数字化助手方面带来新一代AI解决方案。

强化学习亦成为物联网自主边缘应用发展的前提性基础。在工业、交通运输、医疗卫生以及消费者应用等方面,大部分边缘应用的开发工作皆需要构建AI驱动型机器人,从而在动态环境之下根据不同情境信息以自主方式完成操作。

强化学习的工作原理

在这样的应用领域当中,边缘装置当中的AI大脑必须依赖于强化学习技术; 更具体地讲,其必须有能力在缺少预置“基于真实”的训练数据集的前提下,最大程度积累报酬函数——例如根据规范当中包含的一组标准找到问题解决方法。这种作法与其它类型的人工智能学习方式——例如监督学习(立足真实数据最大程度降低算法丢失函数)以及无监督学习(立足各数据点最大程度降低距离函数)——正好相反。

然而,AI学习方法之间并不一定必须彼此孤立。AI发展趋势当中最值得关注的一点在于,强化学习正在各类更为先进的应用当中与监督及无监督学习相融合。AI开发者们努力将这些方法整合至应用程序当中,旨在使其实现单一学习方法也不足以达到的新高度。

举例来说,在不具备标记训练数据的情况下,监督学习本身无法起效——这一点在自动驾驶应用当中体现得尤为显著。由于每个瞬时环境情况基本上独立存在且未经预先标记,学习方法必须自行找到解决办法。同样的,无监督学习(利用聚类分析来检测传感器源以及其它复杂未标记数据中的模式)也无法在现实世界当中的决策场景内,准确识别智能端点并采取最佳操作。

深度强化学习是什么

接下来是深度强化学习,这种领先技术当中的自主代理利用强化学习的试错算法与累加报酬函数以加速神经网络设计。这些设计能够极大支持各类依赖于监督与/或无监督学习的AI应用程序。

深度强化学习已经成为AI开发以及训练管道当中的核心关注区域。其利用强化学习驱动代理以快速探索各类架构、节点类型、连接、超参数设置以及深度学习机器学习乃至其它AI模型,并对这些供设计人员使用的选项进行相关效能权衡。

举例来说,研究人员可利用深度强化学习从无数深度学习卷积神经网络(简称CNN)架构当中快速确定最适合当前特征工程、计算机视觉以及图像分类任务的选项。由深度强化学习提供的结果可供AI工具用于自动生成最优CNN,并配合TensorFlow、MXNet或者PyTorch等深度学习开发工具完成具体任务。

在这方面,强化学习开发与训练开放框架的持续涌现无疑令人振奋。若您希望深入了解强化学习,那么以下强化学习框架无疑值得关注——通过运用这些框架并对其加以扩展,您将能够将其与TensorFlow以及其它得到广泛应用的深度学习与机器学习建模工具进行对接:

强化学习框架

具体作用以及获取方式

TensorFlow Agents:TensorFlow Agents 提供多种工具,可通过强化学习实现各类智能应用程序的构建与训练。作为TensorFlow项目的扩展方案,这套框架能够将OpoenAI Gym接口扩展至多个并行环境,并允许各代理立足TensorFlow之内实现以执行批量计算。其面向OpoenAI Gy环境的批量化接口可与TensorFlow实现全面集成,从而高效执行各类算法。该框架还结合有BatchPPO,一套经过优化的近端策略优化算法实现方案。其核心组件包括一个环境打包器,用于在外部过程中构建OpenAI Gym环境; 一套批量集成,用于实现TensorFlow图步并以强化学习运算的方式重置函数; 外加用于将TensorFlow图形批处理流程与强化学习算法纳入训练特内单一却步的组件。

Ray RLLib:RLLib 提供一套基于任务的灵活编程模式,可用于构建基于代理且面向多种应用场景的强化学习应用程序。RLLib由伯克利大学开发,目前已经迎来版本2,其立足Ray实现运行。Ray是一套灵活且高性能的分布式执行框架。值得一提的是,RLLib开发者团队中的一位成员曾经担任Apache Spark的主要缔造者职务。

RLLib 可立足TensorFlow与PyTorch框架之内起效,能够实现不同算法间的模型共享,并可与Ray Tune超参数调整工具进行集成。该框架结合有一套可组合且可扩展的标准强化学习组件库。各个RLLib组件能够在分布式应用程序当中实现并行化、扩展、组合与复用。

RLLib当中包含三种强化学习算法——近端策略优化(简称PPO)、异步优势Actor-Critic(简称A3C)以及Deep Q Networks(简称DQN),三者皆可运行在任意OpenAI Gym Markov决策流程当中。其还为各类新算法的开发工作提供可扩展原语,用于将RLLib应用于新问题的Python API、一套代理超参数设置库以及多种可插拔分布式强化学习执行策略。其亦支持由用户创建自定义强化学习算法。

Roboschool:Roboschool 提供开源软件以通过强化学习构建并训练机器人模拟。其有助于在同一环境当中对多个代理进行强化学习训练。通过多方训练机制,您可以训练同一代理分别作为两方玩家(因此能够自我对抗)、使用相同算法训练两套代理,或者设置两种算法进行彼此对抗。

Roboschool由OpenAI开发完成,这一非营利性组织的背后赞助者包括Elon Musk、Sam Altman、Reid Hoffman以及Peter Thiel。其与OpenAI Gym相集成,后者是一套用于开发及评估强化学习算法的开源工具集。OpenAI Gym与TensorFlow、Theano以及其它多种深度学习库相兼容。OpenAI Gym当中包含用于数值计算、游戏以及物理引擎的相关代码。

Roboschool基于Bullet物理引擎,这是一套开源许可物理库,并被其它多种仿真软件——例如Gazebo与Virtual Robot ExperimentaTIon Platform(简称V-REP)所广泛使用。其中包含多种强化学习算法,具体以怨报德 异步深度强化学习方法、Actor-CriTIc with Experience Replay、Actor- CriTIc using Kronecker-Factored Trust Region、深度确定性策略梯度、近端策略优化以及信任域策略优化等等。

Machine Learning Agents:尽管尚处于beta测试阶段,但Unity Technology的Machine Learning Agents已经能够面向游戏、模拟、自动驾驶车辆以及机器人实现智能代理的开发与强化学习训练。ML-Agents支持多种强化学习训练场景,具体涉及各类代理、大脑以及报酬机制的配置与彼此交互。该框架的SDK支持单代理与多代理场景,亦支持离散与连续操作空间。其提供Python API以访问强化学习、神经进化以及其它机器学习方法。

ML-Agents学习环境包括大量通过与自动化组件(即‘大脑’)交互以实现执行的代理。各个代理皆能够拥有自己的一套独特状态与观察集,在环境当中执行特定操作,并在环境之内接收与事件相关的独特报酬。代理的操作由与之对接的大脑决定。每个大脑负责定义一项特定状态与操作空间,并决定与之相连的各代理应采取哪项操作。

除此之外,每个ML-Agents环境还包含一个独立“学院”,用于定义环境范围——具体包括引擎配置(训练与推理模式下游戏引擎的速度与渲染质量)、帧数(每个代理作出新决策的间隔当中跳过多少引擎步骤)以及全局事件长度(即事件将持续多长时间)。

在大脑能够设定的各类模式当中,外部模式最值得一提——其中的操作决策利用TensorFlow或者其它选定的机器学习库制定,且通过开放套接配合ML-Agents的Python API实现通信。同样的,内部模式中的代理操作决策则利用一套通过嵌入TensorFlowSharp代理接入项目的预训练模型负责制定。

Coach:英特尔公司的Nervana Coach是一套开源强化学习框架,负责对游戏、机器人以及其它基于代理的智能应用进行智能代理的建模、训练与评估。

Coach 提供一套模块化沙箱、可复用组件以及用于组合新强化学习算法并在多种应用领域内训练新智能应用的Python API。该框架利用OpenAI Gym作为主工具,负责与不同强化学习环境进行交换。其还支持其它外部扩展,具体包括Roboschool、gym-extensions、PyBullet以及ViZDoom。Coach的环境打包器允许用户向其中添加自定义强化学习环境,从而解决其它学习问题。

该框架能够在桌面计算机上高效训练强化学习代理,并利用多核CPU处理相关任务。其能够为一部分强化学习算法提供单线程与多线程实现能力,包括异步优势Actor-CriTIc、深度确定性策略梯度、近端策略优化、直接未来预测以及规范化优势函数。所有算法皆利用面向英特尔系统作出优化的TensorFLow完成,其中部分算法亦适用于英特尔的Neon深度学习框架。

Coach 当中包含多种强化学习代理实现方案,具体包括从单线程实现到多线程实现的转换。其能够开发出支持单与多工作程序(同步或异步)强化学习实现方法的新代理。此外,其还支持连续与离散操作空间,以及视觉观察空间或仅包含原始测量指标的观察空间。

AI开发者需要掌握的强化学习技能

展望未来,AI开发者们需要尽可能掌握上述框架以及其中所使用的各类强化学习算法。此外,您还需要强化自身对于多代理强化学习架构的理解,因为其中多种框架都大量利用前沿博弈论研究成果。最后,您还需要熟悉深度强化学习知识,并借此发现计算机视觉应用程序当中所出现的“模糊(fuzzing)”攻击及相关安全漏洞。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

上海2024年4月16日 /美通社/ -- 4月14日,为期四天的第89届中国国际医疗器械博览会(CMEF)盛大收官。澳鹏Appen很荣幸再次作为唯一的人工智能训练数据参展商参与此次"航母级"规模医疗...

关键字: APP 医疗器械 PEN 模型

北京2023年9月22日 /美通社/ -- 随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务...

关键字: 三星 开源 英特尔 PEN

北京2023年9月21日 /美通社/ -- 近日,由开放数据中心委员会(ODCC)主办的2023“开放数据中心大会”在北京国际会议中心举行。今年是ODCC成立10周年,大会汇集了数据中心产业链上下游企业、科研机构、专家学...

关键字: 数据中心 TI PEN DC

北京2023年9月15日 /美通社/ -- 9月8日,2023年鲲鹏应用创新大赛陕西赛区决赛成功落幕。经过现场答辩、问题答疑等环节,软通动力"基于鲲鹏硬件的信创医共体解决方案" 最终荣获20...

关键字: 大赛 PEN 操作系统 华为

冠闵信息近年云收入保持双位数增长 北京2023年9月13日 /美通社/ -- 亚马逊云科技连续七年授予上海冠闵信息科技有限公司(以下简称:冠闵信息)托管服务提供商(MSP)认证,其借助亚马逊云科技在云能力、技术方案构建...

关键字: 亚马逊 数字化 SEARCH PEN

(全球TMT2023年9月4日讯)8月31日,第二十五届中国国际软件博览会在天津梅江会展中心拉开帷幕。软通动力子公司鸿湖万联受邀参会,通过展示开源生态建设成果,为中国软件产业腾飞提供“加速度”。 鸿湖万联...

关键字: PEN HARMONY AI 软件

北京2023年8月22日 /美通社/ -- 共聚软件名城,共谋数字未来。8月20日—8月23日由江苏省工业和信息化厅、南京市人民政府主办,南京市工业和信息化局、南京市软件集群发展促进机构承办的2023中国(南京)国际软件...

关键字: 开源 软件 鸿蒙 PEN

北京2023年8月16日 /美通社/ -- 近日,在备受业界关注的OCP China Day 2023(开放计算中国技术峰会)上,面对多元算力平台运维管理方面的重重挑战,浪潮信息正式发布了基于OpenBMC的I...

关键字: 固件 PEN 开源 芯片

(全球TMT2023年7月27日讯)近日,软通动力成功中标中国移动“云能力中心2023-2024年省专公司操作系统迁移技术服务项目”,份额位列中选企业第一。此次中标“中国移动云能力中心操作系统迁移技术服务项目”,进一步...

关键字: 中国移动 操作系统 PEN 鸿蒙

北京2023年8月7日 /美通社/ -- "多元算力时代下,大规模的异构服务器设备面临多种处理器架构、多种设备协议、不同管理芯片兼容的系统化设计挑战,管理固件也迎来新的变革。开源开放的OpenBMC,以创新的分...

关键字: 开源 PEN 固件 数据中心
关闭
关闭