《强化学习周刊》第3期：深度强化学习如何提升鲁棒性和性能

No.03智源社区强化学习组RL学习研究观点资源活动关于周刊深度强化学习是当前人工智能领域研究的热点之一，为帮助研究与工程人员了解该领域的进展和资讯，智源社区整理了第3期《强化学习周刊》...

智源社区

2382人浏览 · 2021-04-09 18:50:00

智源社区 · 2021-04-09 18:50:00 发布

No.03

智源社区

强化学习组

学

习

研究

观点

资源

活动

关于周刊

深度强化学习是当前人工智能领域研究的热点之一，为帮助研究与工程人员了解该领域的进展和资讯，智源社区整理了第3期《强化学习周刊》，从论文推荐、研究动态、研究综述、热点讨论、教程和新工具等维度，向大家推荐近期值得关注的信息，内容覆盖了DQN、DDPG、A3C等不同策略的深度强化学习算法。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。（本期贡献者：任黎明，刘延龙，陈斌）

论文推荐

近年来，深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗及其他潜在领域均取得较为明显的发展。我们这次推荐的六篇深度强化学习相关论文，覆盖了时间序列异常检测、车队管理、医疗、理论研究等方面的内容。

标题：RLAD: Time Series Anomaly Detection through Reinforcement Learning and Active Learning（基于强化学习和主动学习的时间序列异常检测）了解详情

简介：本文介绍了用于时间序列异常检测的RLAD。将深度强化学习和主动学习相结合，降低正常模式假设的可靠性和标签的可用性，是异常检测领域的首次尝试。研究结果表明，该模型在无监督和半监督技术上均优于最新技术。

论文链接：https://arxiv.org/pdf/2104.00543.pdf

标题：AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection（AdaPool：基于无模型深度强化学习和变更点检测的昼夜自适应车队管理框架）了解详情

简介：本文提出新颖的基于乘车共享的分布式自适应深度Q学习方法—即“AdaPool”框架和基于需求感知匹配和路线规划的方法。该方法集成基于DQN的调度算法，其可以动态自适应生成理想路径。实验结果表明，其提高了司机的利润并缩短了平均行驶距离。

论文链接：https://arxiv.org/pdf/2104.00203.pdf

标题：Reinforcement learning in surgery（外科中的强化学习）

了解详情

简介：病人和医生对诊断和治疗保持基本的决定干预措施应在时间限制和患者诊断和治疗预期反应不确定的情况下进行或推迟。这可能导致认知和判断错误。强化学习是机器学习的一个子领域，它识别一系列动作，以提高实现预定目标的可能性目标。加强学习有可能通过在预定义的时间间隔内推荐操作来帮助外科决策，并有能力利用复杂的输入数据，包括文本、决策过程中的图像和时间数据。该算法模拟人的试错学习过程来计算最优推荐策略。

论文链接：https://www.sciencedirect.com/science/article/pii/S0039606020308254

标题：Robustness and performance of Deep Reinforcement Learning（深度强化学习的鲁棒性及其性能）了解详情

简介：深度强化学习（DRL）近年来受到广泛关注。它使强化学习（RL）和深度学习（DL）技术能够解决各种困难任务。在提出了一种新的算法-GANC。其目的是提高DRL网络的鲁棒性和性能。GANC使用遗传算法（GA）通过产生增广输入来最大化DRL网络的神经元覆盖率（NC）。本文将此方法应用于自动驾驶汽车中，对于不同的道路跟踪视图，准确地提供正确的决策是至关重要的。文章在四种不同驾驶环境的SYNTHIA-SEQS-05数据库上评估了提出的方法。文章的结果是非常有前途的-最佳驾驶精度达到97.75%-并优于最先进的结果。

论文链接：https://www.sciencedirect.com/science/article/pii/S1568494621002180

标题：Multi-Agent Collaboration via Reward Attribution Decomposition(通过奖励归属分解实现多智能体协作)了解详情

简介：本文试图从第一性原理出发，思考多智能体协作应当如何建模。通过深入思考智能体间协作的意义，在每个智能体之所以会和别人协作，完全是因为委派的奖励不同的假设下提出了新的决定委派奖励的目标函数。在星际争霸任务中，胜率提升明显。

论文链接：https://arxiv.org/pdf/2010.08531.pdf

标题：Domain Adaptation In Reinforcement Learning Via Latent Unified State Representation(通过潜在统一状态表示进行强化学习的领域适应性研究)了解详情

简介：本文收录于AAAI 2021，从强化学习泛化能力的角度展开研究。用状态表征的方法成功将任务相关和任务无关的状态从原始图像中解耦，使得已经训练好的模型能在不同场景中迁移。实验在CarRacing和CARLA中获得显著的效果。

论文链接：https://arxiv.org/pdf/2102.05714.pdf

研究动态

强化学习：兵分三路，挺进产业了解详情

不少人对强化学习的印象还停留在打游戏。比如，著名的「阿尔法狗」、Deepmind与OpenAI发布足以击败人类顶级玩家的《星际争霸》和《魔兽争霸2》游戏系统。事实上，强化学习系统正从研究实验室过渡到影响力更大的实际应用。强化学习可以学习最佳策略以控制大型复杂系统，例如制造工厂，交通控制系统（道路/火车/飞机），金融资产，机器人等。像Wayve 和Waymo这样的自动驾驶汽车公司正使用强化学习来开发汽车控制系统。

本文从以下五个方面进行论述：（一）卫冕冠军与AI「水手；（二）强化学习走出实验室；（三）强化学习的三类应用场景；（四）走向广泛部署；（五）开启「自上而下」的强化学习模式。

淘系技术、达摩院，新竹交通大学：基于深度强化学习的视频比特码率控制算法了解详情

深度强化学习在优化学习算法领域大放异采，为很多优化学习问题带来了很好的解决方案。信道带宽波动和视频码率控制作为优化学习的一个问题。基于此，本文提出了利用深度强化学习网络来学习比特分配的新思路。研究结果表明，从客观品质比较表可以观察到, 该方法无论在哪种常规的测试影片中, PSNR的值都有显著进步。充分展现了深度强化学习在视讯编码的巨大潜力。

研究综述

电子科大 | 记忆增强型深度强化学习研究综述了解详情

近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点。

最新最全论文合集——强化学习在计算机视觉中的应用了解详情

近几年，深度学习和强化学习中一些先进方法的出现使得两者的结合成为可能，其产物就是深度强化学习。深度强化学习既有继承于深度学习的强泛化和自特征提取能力，又可以像强化学习方法一样，使智能系统通过自我的试错在给定环境中学习解决特定任务的策略。而在计算机视觉这一领域，强化学习也得到了很多应用，特别是在机器人领域。

最新最全论文合集——强化学习在自然语言处理中的应用了解详情

近年来，深度强化学习在自然语言处理方面，主要方向是利用RL辅助学习语义向量，再使用下游任务进行评估和用RL对模型进行微调。

热点讨论

什么是强化学习？它是什么类型？了解详情

什么是强化学习？强化学习是训练机器学习模型以做出一系列决策的过程。然后，这可以帮助代理学习如何在不确定和复杂的环境中实现目标。人工智能在强化学习中面临着游戏般的局面。强化学习是至关重要的人工智能范式转变，因为它为从金融业到机器人技术的AGI创造了一条道路，并将在塑造AI的未来中发挥重要作用。

教程

Deeppavlov 20年DRL前沿新课-《深度强化学习前沿主题》课程分享了解详情

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。

本课程将重点介绍深度强化学习近年来的最新研究进展，前沿主题涉及强化学习中探索策略介绍，模仿和反向强化学习，分层强化学习，强化学习中的进化策略，分布式强化学习，强化学习组合优化，多智能体强化学习，大规模强化学习，多任务和迁移强化学习，强化学习中的记忆机制，野外分布式强化学习等。做相关研究和应用的朋友值得一看。

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频了解详情

强化学习(RL)使智能体能够通过动态环境中的交互学习最佳决策。该教程不需要任何关于该主题的知识，并从基本概念和算法开始，如马尔科夫决策过程，探索与利用，Q-学习，决策梯度和Actor-Critic算法。本教程特别关注强化学习和深度学习的结合，使用深度Q-Network (DQN)等算法。最后，描述了如何利用这些技术来解决代表性的IR问题，如“学习排序”，并讨论了最近的发展以及对未来研究的展望。

新工具

剑桥大学 | Bellman：Tensorflow中基于模型的强化学习工具箱了解详情

尽管有很多用于无模型RL的工具箱，但是基于模型的RL在工具箱开发方面很少受到关注。Bellman旨在填补这一空白，并使用最先进的软件工程实践介绍了第一个经过全面设计和测试的基于模型的RL工具箱。该模块化方法能够将广泛的环境模型与基于通用模型的代理类相结合，以恢复最新算法。