Skip to yearly menu bar Skip to main content

Workshop

Deep Reinforcement Learning Workshop

Karol Hausman ⋅ Qi Zhang ⋅ Matthew Taylor ⋅ Martha White ⋅ Suraj Nair ⋅ Manan Tomar ⋅ Risto Vuorio ⋅ Ted Xiao ⋅ Zeyu Zheng ⋅ Manan Tomar

Project Page [ Contact: deeprl.workshop.neurips2022@gmail.com ]

Abstract

In recent years, the use of deep neural networks as function approximators has enabled researchers to extend reinforcement learning techniques to solve increasingly complex control tasks. The emerging field of deep reinforcement learning has led to remarkable empirical results in rich and varied domains like robotics, strategy games, and multi-agent interactions. This workshop will bring together researchers working at the intersection of deep learning and reinforcement learning, and it will help interested researchers outside of the field gain a high-level view about the current state of the art and potential directions for future contributions.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

8:25 AM

Opening Remarks

Video

8:30 AM

Tobias Gerstenberg

Tobias Gerstenberg

Video

9:00 AM

ESCHER: ESCHEWING IMPORTANCE SAMPLING IN GAMES BY COMPUTING A HISTORY VALUE FUNCTION TO ESTIMATE REGRET

Stephen McAleer ⋅ Gabriele Farina ⋅ Marc Lanctot ⋅ Tuomas Sandholm

9:15 AM

Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training

Jason Yecheng Ma ⋅ Shagun Sodhani ⋅ Dinesh Jayaraman ⋅ Osbert Bastani ⋅ Vikash Kumar ⋅ Amy Zhang

Video

9:30 AM

Is Model Ensemble Necessary? Model-based RL via a Single Model with Lipschitz Regularized Value Function

Ruijie Zheng ⋅ Xiyao Wang ⋅ Huazhe Xu ⋅ Furong Huang

Video

9:45 AM

Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes

Aviral Kumar ⋅ Rishabh Agarwal ⋅ XINYANG GENG ⋅ George Tucker ⋅ Sergey Levine

Video

10:00 AM

Jakob Foerster

Jakob Foerster

Video

11:00 AM

Scientific Experiments in Reinforcement Learning

Scott Jordan

Video

11:30 AM

Transformers are Sample-Efficient World Models

Vincent Micheli ⋅ Eloi Alonso ⋅ François Fleuret

11:45 AM

Scaling Laws for a Multi-Agent Reinforcement Learning Model

Oren Neumann ⋅ Claudius Gros

Video

12:00 PM

Natasha Jaques

Natasha Jaques

Video

1:30 PM

The World is not Uniformly Distributed; Important Implications for Deep RL

Stephanie Chan

2:00 PM

Amy Zhang

Amy Zhang

3:00 PM

Igor Mordatch

Igor Mordatch

Video

3:30 PM

John Schulman

John Schulman

Video

3:45 PM

Danijar Hafner

Danijar Hafner

Video

4:00 PM

Kristian Hartikainen

Kristian Hartikainen

4:15 PM

Ilya Kostrikov, Aviral Kumar

Ilya Kostrikov ⋅ Aviral Kumar

Video

4:30 PM

Panel Discussion

Video

5:30 PM

Closing Remarks

Compositional Task Generalization with Modular Successor Feature Approximators

Wilka Carvalho Carvalho

Learning Dexterous Manipulation from Exemplar Object Trajectories and Pre-Grasps

Sudeep Dasari ⋅ Vikash Kumar

Neural All-Pairs Shortest Path for Reinforcement Learning

Cristina Pinneri ⋅ Georg Martius ⋅ Andreas Krause

VI2N: A Network for Planning Under Uncertainty based on Value of Information

Samantha Johnson ⋅ Michael Buice ⋅ Koosha Khalvati

Video

Efficient Multi-Horizon Learning for Off-Policy Reinforcement Learning

Raja Farrukh Ali ⋅ Nasik Muhammad Nafi ⋅ Kevin Duong ⋅ William Hsu

Analyzing the Sensitivity to Policy-Value Decoupling in Deep Reinforcement Learning Generalization

Nasik Muhammad Nafi ⋅ Raja Farrukh Ali ⋅ William Hsu

Video

Lagrangian Model Based Reinforcement Learning

Adithya Ramesh ⋅ Balaraman Ravindran

Video

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines

Andrew Li ⋅ Zizhao Chen ⋅ Pashootan Vaezipoor ⋅ Toryn Klassen ⋅ Rodrigo Toro Icarte ⋅ Sheila McIlraith

Video

Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes

Min Zhang ⋅ Hongyao Tang ⋅ Jianye Hao ⋅ YAN ZHENG

Video

Informative rewards and generalization in curriculum learning

Rahul Siripurapu ⋅ Vihang Patil ⋅ Kajetan Schweighofer ⋅ Marius-Constantin Dinu ⋅ Markus Holzleitner ⋅ Hamid Eghbalzadeh ⋅ Luis Ferro ⋅ Thomas Schmied ⋅ Michael Kopp ⋅ Sepp Hochreiter

Video

Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation

Yuzhe Qin ⋅ Binghao Huang ⋅ Zhao-Heng Yin ⋅ Hao Su ⋅ Xiaolong Wang

CLUTR: Curriculum Learning via Unsupervised Task Representation Learning

Abdus Salam Azad ⋅ Izzeddin Gur ⋅ Aleksandra Faust ⋅ Pieter Abbeel ⋅ Ion Stoica

Video

The Emphatic Approach to Average-Reward Policy Evaluation

Jiamin He ⋅ Yi Wan ⋅ Rupam Mahmood

Video

Learning Exploration Policies with View-based Intrinsic Rewards

Yijie Guo ⋅ Yao Fu ⋅ Run Peng ⋅ Honglak Lee

Video

Scaling Covariance Matrix Adaptation MAP-Annealing to High-Dimensional Controllers

Bryon Tjanaka ⋅ Matthew Fontaine ⋅ Aniruddha Kalkar ⋅ Stefanos Nikolaidis

Video

Policy Aware Model Learning via Transition Occupancy Matching

Jason Yecheng Ma ⋅ Kausik Sivakumar ⋅ Osbert Bastani ⋅ Dinesh Jayaraman

Video

On The Fragility of Learned Reward Functions

Lev McKinney ⋅ Yawen Duan ⋅ Adam Gleave ⋅ David Krueger

Video

Temporary Goals for Exploration

Haoyang Xu ⋅ Jimmy Ba ⋅ Silviu Pitis ⋅ Harris Chan

Video

Revisiting Bellman Errors for Offline Model Selection

Joshua Zitovsky ⋅ Daniel de Marchi ⋅ Rishabh Agarwal ⋅ Michael Kosorok

Unleashing The Potential of Data Sharing in Ensemble Deep Reinforcement Learning

Zhixuan Lin ⋅ Pierluca D'Oro ⋅ Evgenii Nikishin ⋅ Aaron Courville

Video

What Makes Certain Pre-Trained Visual Representations Better for Robotic Learning?

Kyle Hsu ⋅ Tyler Lum ⋅ Ruohan Gao ⋅ Shixiang (Shane) Gu ⋅ Jiajun Wu ⋅ Chelsea Finn

Curiosity in Hindsight

Daniel Jarrett ⋅ Corentin Tallec ⋅ Florent Altché ⋅ Thomas Mesnard ⋅ Remi Munos ⋅ Michal Valko

Video

Train Offline, Test Online: A Real Robot Learning Benchmark

Gaoyue Zhou ⋅ Victoria Dean ⋅ Mohan Kumar Srirama ⋅ Aravind Rajeswaran ⋅ Jyothish Pari ⋅ Kyle Hatch ⋅ Aryan Jain ⋅ Tianhe Yu ⋅ Pieter Abbeel ⋅ Lerrel Pinto ⋅ Chelsea Finn ⋅ Abhinav Gupta

Video

A Framework for Predictable Actor-Critic Control

Josiah Coad ⋅ James Ault ⋅ Jeff Hykin ⋅ Guni Sharon

Video

Ensemble based uncertainty estimation with overlapping alternative predictions

Dirk Eilers ⋅ Felippe Schmoeller Roza ⋅ Karsten Roscher

Video

Offline Reinforcement Learning on Real Robot with Realistic Data Sources

Gaoyue Zhou ⋅ Liyiming Ke ⋅ Siddhartha Srinivasa ⋅ Abhinav Gupta ⋅ Aravind Rajeswaran ⋅ Vikash Kumar

Video

Feasible Adversarial Robust Reinforcement Learning for Underspecified Environments

JB Lanier ⋅ Stephen McAleer ⋅ Pierre Baldi ⋅ Roy Fox

Video

Training Equilibria in Reinforcement Learning

Lauro Langosco ⋅ David Krueger ⋅ Adam Gleave

A Unified Approach to Reinforcement Learning, Quantal Response Equilibria, and Two-Player Zero-Sum Games

Samuel Sokota ⋅ Ryan D'Orazio ⋅ J. Zico Kolter ⋅ Nicolas Loizou ⋅ Marc Lanctot ⋅ Ioannis Mitliagkas ⋅ Noam Brown ⋅ Christian Kroer

Replay Buffer With Local Forgetting for Adaptive Deep Model-Based Reinforcement Learning

Ali Rahimi-Kalahroudi ⋅ Janarthanan Rajendran ⋅ Ida Momennejad ⋅ Harm Van Seijen ⋅ Sarath Chandar

Video

Confidence-Conditioned Value Functions for Offline Reinforcement Learning

Joey Hong ⋅ Aviral Kumar ⋅ Sergey Levine

Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance

Yanqiu Wu ⋅ Xinyue Chen ⋅ Che Wang ⋅ Yiming Zhang ⋅ Keith Ross

Video

Integrating Episodic and Global Bonuses for Efficient Exploration

Mikael Henaff ⋅ Minqi Jiang ⋅ Roberta Raileanu

Deconfounded Imitation Learning

Risto Vuorio ⋅ Pim de Haan ⋅ Johann Brehmer ⋅ Hanno Ackermann ⋅ Daniel Dijkman ⋅ Taco Cohen

Video

ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation Learning

Eddy Hudson ⋅ Ishan Durugkar ⋅ Garrett Warnell ⋅ Peter Stone

Video

Human-AI Coordination via Human-Regularized Search and Learning

Hengyuan Hu ⋅ David Wu ⋅ Adam Lerer ⋅ Jakob Foerster ⋅ Noam Brown

Video

Proto-Value Networks: Scaling Representation Learning with Auxiliary Tasks

Jesse Farebrother ⋅ Joshua Greaves ⋅ Rishabh Agarwal ⋅ Charline Le Lan ⋅ Ross Goroshin ⋅ Pablo Samuel Castro ⋅ Marc Bellemare

Return Augmentation gives Supervised RL Temporal Compositionality

Keiran Paster ⋅ Silviu Pitis ⋅ Sheila McIlraith ⋅ Jimmy Ba

Video

Design Process is a Reinforcement Learning Problem

Reza Kakooee ⋅ Benjamin Dillenburger

Video

Bayesian Q-learning With Imperfect Expert Demonstrations

Fengdi Che ⋅ Xiru Zhu ⋅ Doina Precup ⋅ David Meger ⋅ Gregory Dudek

Video

Efficient Deep Reinforcement Learning Requires Regulating Statistical Overfitting

Qiyang Li ⋅ Aviral Kumar ⋅ Ilya Kostrikov ⋅ Sergey Levine

Pre-Training for Robots: Leveraging Diverse Multitask Data via Offline Reinforcement Learning

Anikait Singh ⋅ Aviral Kumar ⋅ Frederik Ebert ⋅ Yanlai Yang ⋅ Chelsea Finn ⋅ Sergey Levine

Offline Reinforcement Learning from Heteroskedastic Data Via Support Constraints

Anikait Singh ⋅ Aviral Kumar ⋅ Quan Vuong ⋅ Yevgen Chebotar ⋅ Sergey Levine

Variance Double-Down: The Small Batch Size Anomaly in Multistep Deep Reinforcement Learning

Johan Obando Ceron ⋅ Marc Bellemare ⋅ Pablo Samuel Castro

Video

Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-Oriented Dialogue Systems

Yihao Feng ⋅ Shentao Yang ⋅ Shujian Zhang ⋅ Jianguo Zhang ⋅ Caiming Xiong ⋅ Mingyuan Zhou ⋅ Huan Wang

In the ZONE: Measuring difficulty and progression in curriculum generation

Rose Wang ⋅ Jesse Mu ⋅ Dilip Arumugam ⋅ Natasha Jaques ⋅ Noah Goodman

Video

Better state exploration using action sequence equivalence

Nathan Grinsztajn ⋅ Toby Johnstone ⋅ Johan Ferret ⋅ philippe preux

Video

Deep Learning of Intrinsically Motivated Options in the Arcade Learning Environment

Louis Bagot ⋅ Kevin Mets ⋅ Tom De Schepper ⋅ Steven Latre

Video

Guiding Exploration Towards Impactful Actions

Vaibhav Saxena ⋅ Jimmy Ba ⋅ Danijar Hafner

Video

Domain Invariant Q-Learning for model-free robust continuous control under visual distractions

Tom Dupuis ⋅ Jaonary Rabarisoa ⋅ Quoc Cuong PHAM ⋅ David Filliat

Video

Multi-Agent Policy Transfer via Task Relationship Modeling

Rong-Jun Qin ⋅ Feng Chen ⋅ Tonghan Wang ⋅ Lei Yuan ⋅ Xiaoran Wu ⋅ Yipeng Kang ⋅ Zongzhang Zhang ⋅ Chongjie Zhang ⋅ Yang Yu

Video

Foundation Models for History Compression in Reinforcement Learning

Fabian Paischer ⋅ Thomas Adler ⋅ Andreas Radler ⋅ Markus Hofmarcher ⋅ Sepp Hochreiter

Video

A Game-Theoretic Perspective of Generalization in Reinforcement Learning

Chang Yang ⋅ RUIYU WANG ⋅ Xinrun Wang ⋅ Zhen Wang

Video

Imitating Human Behaviour with Diffusion Models

Tim Pearce ⋅ Tabish Rashid ⋅ Anssi Kanervisto ⋅ David Bignell ⋅ Mingfei Sun ⋅ Raluca Georgescu ⋅ Sergio Valcarcel Macua ⋅ Shan Zheng Tan ⋅ Ida Momennejad ⋅ Katja Hofmann ⋅ Sam Devlin

Video

EUCLID: Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model

Yifu Yuan ⋅ Jianye Hao ⋅ Fei Ni ⋅ Yao Mu ⋅ YAN ZHENG ⋅ Yujing Hu ⋅ Jinyi Liu ⋅ Yingfeng Chen ⋅ Changjie Fan

Video

ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation

Pengyi Li ⋅ Hongyao Tang ⋅ Jianye Hao ⋅ YAN ZHENG ⋅ Xian Fu ⋅ Zhaopeng Meng

Video

Quantization-aware Policy Distillation (QPD)

Thomas Avé ⋅ Kevin Mets ⋅ Tom De Schepper ⋅ Steven Latre

Video

Fast and Precise: Adjusting Planning Horizon with Adaptive Subgoal Search

Michał Zawalski ⋅ Michał Tyrolski ⋅ Konrad Czechowski ⋅ Damian Stachura ⋅ Piotr Piękos ⋅ Tomasz Odrzygóźdź ⋅ Yuhuai Wu ⋅ Łukasz Kuciński ⋅ Piotr Miłoś

Video

Cyclophobic Reinforcement Learning

Stefan Wagner ⋅ Peter Arndt ⋅ Jan Robine ⋅ Stefan Harmeling

Video

AsymQ: Asymmetric Q-loss to mitigate overestimation bias in off-policy reinforcement learning

Qinsheng Zhang ⋅ Arjun Krishna ⋅ Sehoon Ha ⋅ Yongxin Chen

Fine-tuning Offline Policies with Optimistic Action Selection

Max Sobol Mark ⋅ Ali Ghadirzadeh ⋅ Xi Chen ⋅ Chelsea Finn

Video

SEM2: Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model

Zeyu Gao ⋅ Yao Mu ⋅ Ruoyan Shen ⋅ Chen Chen ⋅ Yangang Ren ⋅ Jianyu Chen ⋅ Shengbo Li ⋅ Ping Luo ⋅ Yanfeng Lu

Video

Policy Architectures for Compositional Generalization in Control

Allan Zhou ⋅ Vikash Kumar ⋅ Chelsea Finn ⋅ Aravind Rajeswaran

Video

Rethinking Learning Dynamics in RL using Adversarial Networks

Ramnath Kumar ⋅ Tristan Deleu ⋅ Yoshua Bengio

Video

Look Back When Surprised: Stabilizing Reverse Experience Replay for Neural Approximation

Ramnath Kumar ⋅ Dheeraj Nagaraj

Video

Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction

Jiachen Li ⋅ Shuo Cheng ⋅ Zhenyu Liao ⋅ Huayan Wang ⋅ William Yang Wang ⋅ Qinxun Bai

Video

Abstract-to-Executable Trajectory Translation for One-Shot Task Generalization

Stone Tao ⋅ Xiaochen Li ⋅ Tongzhou Mu ⋅ Zhiao Huang ⋅ Yuzhe Qin ⋅ Hao Su

Video

Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier

Pierluca D'Oro ⋅ Max Schwarzer ⋅ Evgenii Nikishin ⋅ Pierre-Luc Bacon ⋅ Marc Bellemare ⋅ Aaron Courville

Adversarial Policies Beat Professional-Level Go AIs

Tony Wang ⋅ Adam Gleave ⋅ Nora Belrose ⋅ Tom Tseng ⋅ Michael Dennis ⋅ Yawen Duan ⋅ Viktor Pogrebniak ⋅ Joseph Miller ⋅ Sergey Levine ⋅ Stuart J Russell

Video

VARIATIONAL REPARAMETRIZED POLICY LEARNING WITH DIFFERENTIABLE PHYSICS

Zhiao Huang ⋅ Litian Liang ⋅ Zhan Ling ⋅ Xuanlin Li ⋅ Chuang Gan ⋅ Hao Su

Video

Efficient Multi-Task Reinforcement Learning via Selective Behavior Sharing

Grace Zhang ⋅ Ayush Jain ⋅ Injune Hwang ⋅ Shao-Hua Sun ⋅ Joseph Lim

Video

Contrastive Example-Based Control

Kyle Hatch ⋅ Sarthak J Shetty ⋅ Benjamin Eysenbach ⋅ Tianhe Yu ⋅ Rafael Rafailov ⋅ Russ Salakhutdinov ⋅ Sergey Levine ⋅ Chelsea Finn

A study of natural robustness of deep reinforcement learning algorithms towards adversarial perturbations

Qisai Liu ⋅ Xian Yeow Lee ⋅ Soumik Sarkar

Video

Multi-skill Mobile Manipulation for Object Rearrangement

Jiayuan Gu ⋅ Devendra Singh Chaplot ⋅ Hao Su ⋅ Jitendra Malik

Video

Visual Reinforcement Learning with Self-Supervised 3D Representations

Yanjie Ze ⋅ Nicklas Hansen ⋅ Yinbo Chen ⋅ Mohit Jain ⋅ Xiaolong Wang

Video

One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation

Matthew Chang ⋅ Saurabh Gupta

Video

Building a Subspace of Policies for Scalable Continual Learning

Jean-Baptiste Gaya ⋅ Thang Long Doan ⋅ Lucas Page-Caccia ⋅ Laure Soulier ⋅ Ludovic Denoyer ⋅ Roberta Raileanu

Video

Skill Machines: Temporal Logic Composition in Reinforcement Learning

Geraud Nangue Tasse ⋅ Devon Jarvis ⋅ Steven James ⋅ Benjamin Rosman

Video

Learning Representations for Reinforcement Learning with Hierarchical Forward Models

Trevor McInroe ⋅ Lukas Schäfer ⋅ Stefano Albrecht

Video

In-context Reinforcement Learning with Algorithm Distillation

Michael Laskin ⋅ Luyu Wang ⋅ Junhyuk Oh ⋅ Emilio Parisotto ⋅ Stephen Spencer ⋅ Richie Steigerwald ⋅ DJ Strouse ⋅ Steven Hansen ⋅ Angelos Filos ⋅ Ethan Brooks ⋅ Maxime Gazeau ⋅ Himanshu Sahni ⋅ Satinder Singh ⋅ Volodymyr Mnih

Video

Time-Myopic Go-Explore: Learning A State Representation for the Go-Explore Paradigm

Marc Höftmann ⋅ Jan Robine ⋅ Stefan Harmeling

Video

MoDem: Accelerating Visual Model-Based Reinforcement Learning with Demonstrations

Nicklas Hansen ⋅ Yixin Lin ⋅ Hao Su ⋅ Xiaolong Wang ⋅ Vikash Kumar ⋅ Aravind Rajeswaran

Video

Scaling up and Stabilizing Differentiable Planning with Implicit Differentiation

Linfeng Zhao ⋅ Huazhe Xu ⋅ Lawson Wong

Video

Graph Inverse Reinforcement Learning from Diverse Videos

Sateesh Kumar ⋅ Jonathan Zamora ⋅ Nicklas Hansen ⋅ Rishabh Jangir ⋅ Xiaolong Wang

Video

Simple Emergent Action Representations from Multi-Task Policy Training

Pu Hua ⋅ Yubei Chen ⋅ Huazhe Xu

Video

Adversarial Cheap Talk

Chris Lu ⋅ Timon Willi ⋅ Alistair Letcher ⋅ Jakob Foerster

On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning

yifan xu ⋅ Nicklas Hansen ⋅ Zirui Wang ⋅ Yung-Chieh Chan ⋅ Hao Su ⋅ Zhuowen Tu

Video

SPRINT: Scalable Semantic Policy Pre-training via Language Instruction Relabeling

Jesse Zhang ⋅ Karl Pertsch ⋅ Jiahui Zhang ⋅ Taewook Nam ⋅ Sung Ju Hwang ⋅ Xiang Ren ⋅ Joseph Lim

Video

Towards True Lossless Sparse Communication in Multi-Agent Systems

Seth Karten ⋅ Mycal Tucker ⋅ Siva Kailas ⋅ Katia Sycara

Video

Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning

Anton Bakhtin ⋅ David Wu ⋅ Adam Lerer ⋅ Jonathan Gray ⋅ Athul Jacob ⋅ Gabriele Farina ⋅ Alexander Miller ⋅ Noam Brown

Video

PnP-Nav: Plug-and-Play Policies for Generalizable Visual Navigation Across Robots

Dhruv Shah ⋅ Ajay Sridhar ⋅ Arjun Bhorkar ⋅ Noriaki Hirose ⋅ Sergey Levine

Video

Offline Reinforcement Learning for Customizable Visual Navigation

Dhruv Shah ⋅ Arjun Bhorkar ⋅ Hrishit Leen ⋅ Ilya Kostrikov ⋅ Nicholas Rhinehart ⋅ Sergey Levine

Multi-Source Transfer Learning for Deep Model-Based Reinforcement Learning

Remo Sasso ⋅ Matthia Sabatelli ⋅ Marco Wiering

Hyperbolic Deep Reinforcement Learning

Edoardo Cetin ⋅ Benjamin Chamberlain ⋅ Michael Bronstein ⋅ jonathan j hunt

Video

Investigating Multi-task Pretraining and Generalization in Reinforcement Learning

Adrien Ali Taiga ⋅ Rishabh Agarwal ⋅ Jesse Farebrother ⋅ Aaron Courville ⋅ Marc Bellemare

Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

Zhendong Wang ⋅ jonathan j hunt ⋅ Mingyuan Zhou

Video

Efficient Exploration using Model-Based Quality-Diversity with Gradients

Bryan Lim ⋅ Manon Flageat ⋅ Antoine Cully

Video

Choreographer: Learning and Adapting Skills in Imagination

Pietro Mazzaglia ⋅ Tim Verbelen ⋅ Bart Dhoedt ⋅ Alexandre Lacoste ⋅ Sai Rajeswar Mudumba

Video

Giving Robots a Hand: Broadening Generalization via Hand-Centric Human Video Demonstrations

Moo J Kim ⋅ Jiajun Wu ⋅ Chelsea Finn

Efficient Offline Policy Optimization with a Learned Model

Zichen Liu ⋅ Siyi Li ⋅ Wee Sun Lee ⋅ Shuicheng Yan ⋅ Zhongwen Xu

Video

Emergent collective intelligence from massive-agent cooperation and competition

Hanmo Chen ⋅ Stone Tao ⋅ JIAXIN CHEN ⋅ Weihan Shen ⋅ Xihui Li ⋅ Chenghui Yu ⋅ Sikai Cheng ⋅ Xiaolong Zhu ⋅ Xiu Li

Video

Distance-Sensitive Offline Reinforcement Learning

Li Jianxiong ⋅ Xianyuan Zhan ⋅ Haoran Xu ⋅ Xiangyu Zhu ⋅ Jingjing Liu ⋅ Ya-Qin Zhang

Video

Uncertainty-Driven Exploration for Generalization in Reinforcement Learning

Yiding Jiang ⋅ J. Zico Kolter ⋅ Roberta Raileanu

Language Models Can Teach Themselves to Program Better

Patrick Haluptzok ⋅ Matthew Bowers ⋅ Adam Kalai

Video

Graph Q-Learning for Combinatorial Optimization

Victoria Magdalena Dax ⋅ Jiachen Li ⋅ Kevin Leahy ⋅ Mykel J Kochenderfer

Video

Transformer-based World Models Are Happy With 100k Interactions

Jan Robine ⋅ Marc Höftmann ⋅ Tobias Uelwer ⋅ Stefan Harmeling

Video

Contrastive Value Learning: Implicit Models for Simple Offline RL

Bogdan Mazoure ⋅ Benjamin Eysenbach ⋅ Ofir Nachum ⋅ Jonathan Tompson

Video

CASA: Bridging the Gap between Policy Improvement and Policy Evaluation with Conflict Averse Policy Iteration

Changnan Xiao ⋅ Haosen Shi ⋅ Jiajun Fan ⋅ Shihong Deng ⋅ Haiyan Yin

Video

MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement Learning

Mikayel Samvelyan ⋅ Akbir Khan ⋅ Michael Dennis ⋅ Minqi Jiang ⋅ Jack Parker-Holder ⋅ Jakob Foerster ⋅ Roberta Raileanu ⋅ Tim Rocktäschel

Video

Pink Noise Is All You Need: Colored Noise Exploration in Deep Reinforcement Learning

Onno Eberhard ⋅ Jakob Hollenstein ⋅ Cristina Pinneri ⋅ Georg Martius

Video

Evaluating Long-Term Memory in 3D Mazes

Jurgis Pašukonis ⋅ Timothy Lillicrap ⋅ Danijar Hafner

Visual Imitation Learning with Patch Rewards

Minghuan Liu ⋅ Tairan He ⋅ Weinan Zhang ⋅ Shuicheng Yan ⋅ Zhongwen Xu

Memory-Efficient Reinforcement Learning with Priority based on Surprise and On-policyness

Ryosuke Unno ⋅ Yoshimasa Tsuruoka

Video

Learning a Domain-Agnostic Policy through Adversarial Representation Matching for Cross-Domain Policy Transfer

Hayato Watahiki ⋅ Ryo Iwase ⋅ Ryosuke Unno ⋅ Yoshimasa Tsuruoka

Video

Temporal Disentanglement of Representations for Improved Generalisation in Reinforcement Learning

Mhairi Dunion ⋅ Trevor McInroe ⋅ Kevin Sebastian Luck ⋅ Josiah Hanna ⋅ Stefano Albrecht

Video

Toward Effective Deep Reinforcement Learning for 3D Robotic Manipulation: End-to-End Learning from Multimodal Raw Sensory Data

Samyeul Noh ⋅ Hyun Myung

Video

Momentum Boosted Episodic Memory for Improving Learning in Long-Tailed RL Environments

Dolton Fernandes ⋅ Pramod Kaushik ⋅ Harsh Shukla ⋅ Raju Bapi

Video

A Ranking Game for Imitation Learning

Harshit Sushil Sikchi ⋅ Akanksha Saran ⋅ Wonjoon Goo ⋅ Scott Niekum

Video

Implicit Offline Reinforcement Learning via Supervised Learning

Alexandre Piche ⋅ Rafael Pardinas ⋅ David Vazquez ⋅ Igor Mordatch ⋅ Igor Mordatch ⋅ Chris Pal

Distributional deep Q-learning with CVaR regression

Mastane Achab ⋅ REDA ALAMI ⋅ YASSER ABDELAZIZ DAHOU DJILALI ⋅ Kirill Fedyanin ⋅ Eric Moulines ⋅ Maxim Panov

Video

The Surprising Effectiveness of Latent World Models for Continual Reinforcement Learning

Samuel Kessler ⋅ Piotr Miłoś ⋅ Jack Parker-Holder ⋅ S Roberts

Video

Understanding Hindsight Goal Relabeling Requires Rethinking Divergence Minimization

Lunjun Zhang ⋅ Bradly Stadie

Video

Perturbed Quantile Regression for Distributional Reinforcement Learning

Taehyun Cho ⋅ Seungyub Han ⋅ Heesoo Lee ⋅ Kyungjae Lee ⋅ Jungwoo Lee

Video

Concept-based Understanding of Emergent Multi-Agent Behavior

Niko Grupen ⋅ Shayegan Omidshafiei ⋅ Natasha Jaques ⋅ Been Kim

Video

Constrained Imitation Q-learning with Earth Mover’s Distance reward

WENYAN Yang ⋅ Nataliya Strokina ⋅ Joni Pajarinen ⋅ Joni-kristian Kamarainen

Video

Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement

Michael Chang ⋅ Alyssa L Dayan ⋅ Franziska Meier ⋅ Tom Griffiths ⋅ Sergey Levine ⋅ Amy Zhang

Video

SoftTreeMax: Policy Gradient with Tree Search

Gal Dalal ⋅ Assaf Hallak ⋅ Shie Mannor ⋅ Gal Chechik

Video

Dynamic Collaborative Multi-Agent Reinforcement Learning Communication for Autonomous Drone Reforestation

Philipp Siedler

Video

Hypernetwork-PPO for Continual Reinforcement Learning

Philemon Schöpf ⋅ Sayantan Auddy ⋅ Jakob Hollenstein ⋅ Antonio Rodriguez-sanchez

Video

DRL-EPANET: Deep reinforcement learning for optimal control at scale in Water Distribution Systems

Anas Belfadil ⋅ David Modesto ⋅ Jose Martin H.

Video

Actor Prioritized Experience Replay

Baturay Saglam ⋅ Furkan Burak Mutlu ⋅ Doğan Can Çiçek ⋅ Suleyman Kozat

Video

Model and Method: Training-Time Attack for Cooperative Multi-Agent Reinforcement Learning

Siyang Wu ⋅ Tonghan Wang ⋅ Xiaoran Wu ⋅ Jingfeng ZHANG ⋅ Yujing Hu ⋅ Changjie Fan ⋅ Chongjie Zhang

Converging to Unexploitable Policies in Continuous Control Adversarial Games

Maxwell Goldstein ⋅ Noam Brown

Video

Do As You Teach: A Multi-Teacher Approach to Self-Play in Deep Reinforcement Learning

Chaitanya Kharyal ⋅ Tanmay Sinha ⋅ Vijaya Sai Krishna Gottipati ⋅ Srijita Das ⋅ Matthew Taylor

Video

On All-Action Policy Gradients

Michal Nauman ⋅ Marek Cygan

Video

A Connection between One-Step Regularization and Critic Regularization in Reinforcement Learning

Benjamin Eysenbach ⋅ Matthieu Geist ⋅ Russ Salakhutdinov ⋅ Sergey Levine

Video

The Benefits of Model-Based Generalization in Reinforcement Learning

Kenny Young ⋅ Aditya Ramesh ⋅ Louis Kirsch ⋅ Jürgen Schmidhuber

Video

Training graph neural networks with policy gradients to perform tree search

Matthew Macfarlane ⋅ Diederik Roijers ⋅ Herke van Hoof

Video

Co-Imitation: Learning Design and Behaviour by Imitation

Chang Rajani ⋅ Karol Arndt ⋅ David Blanco-Mulero ⋅ Kevin Sebastian Luck ⋅ Ville Kyrki

Video

Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning

Mingqi Yuan ⋅ Bo Li ⋅ Xin Jin ⋅ Wenjun Zeng

Video

BLaDE: Robust Exploration via Diffusion Models

Bilal Piot ⋅ Zhaohan Guo ⋅ Shantanu Thakoor ⋅ Mohammad Gheshlaghi Azar

Video

Learning Semantics-Aware Locomotion Skills from Human Demonstrations

Yuxiang Yang ⋅ Xiangyun Meng ⋅ Wenhao Yu ⋅ Tingnan Zhang ⋅ Jie Tan ⋅ Byron Boots

Video

Imitation from Observation With Bootstrapped Contrastive Learning

Medric Sonwa ⋅ Johanna Hansen ⋅ Eugene Belilovsky

PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm

Toygun Basaklar ⋅ Suat Gumussoy ⋅ Umit Ogras

Video

Improving Assistive Robotics with Deep Reinforcement Learning

Yash Jakhotiya ⋅ Iman Haque

Selectively Sharing Experiences Improves Multi-Agent Reinforcement Learning

Matthias Gerstgrasser ⋅ Tom Danino ⋅ Sarah Keren

Video

Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning

Manuel Goulão ⋅ Arlindo L Oliveira

Video

Variance Reduction in Off-Policy Deep Reinforcement Learning using Spectral Normalization

Payal Bawa ⋅ Rafael Oliveira ⋅ Fabio Ramos

Video

Planning Immediate Landmarks of Targets for Model-Free Skill Transfer across Agents

Minghuan Liu ⋅ Zhengbang Zhu ⋅ Menghui Zhu ⋅ Yuzheng Zhuang ⋅ Weinan Zhang ⋅ Jianye Hao

Guided Skill Learning and Abstraction for Long-Horizon Manipulation

Shuo Cheng ⋅ Danfei Xu

Video

Locally Constrained Representations in Reinforcement Learning

Somjit Nath ⋅ Samira Ebrahimi Kahou

Video

Sample-efficient Adversarial Imitation Learning

Dahuin Jung ⋅ Hyungyu Lee ⋅ Sungroh Yoon

Video

Prioritizing Samples in Reinforcement Learning with Reducible Loss

Shivakanth Sujit ⋅ Somjit Nath ⋅ Pedro Braga ⋅ Samira Ebrahimi Kahou

Video

PCRL: Priority Convention Reinforcement Learning for Microscopically Sequencable Multi-agent Problems

Xing Zhou ⋅ Hao Gao ⋅ Xin Xu ⋅ Xinglong Zhang ⋅ Hongda Jia ⋅ Dongzi Wang

Video

A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning

Zixiang Chen ⋅ Chris Junchi Li ⋅ Angela Yuan ⋅ Quanquan Gu ⋅ Michael Jordan

Video

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

Raj Ghugare ⋅ Homanga Bharadhwaj ⋅ Benjamin Eysenbach ⋅ Sergey Levine ⋅ Ruslan Salakhutdinov

Video

Value-based CTDE Methods in Symmetric Two-team Markov Game: from Cooperation to Team Competition

Pascal Leroy ⋅ Jonathan Pisane ⋅ Damien Ernst

Video

Reinforcement Learning in System Identification

Jose Martin H. ⋅ Óscar Fernandez Vicente ⋅ Sergio Perez ⋅ Anas Belfadil ⋅ Cristina Ibanez-Llano ⋅ Freddy Perozo Rondón ⋅ Jose Valle ⋅ Javier Arechalde Pelaz

Video

Robust Option Learning for Adversarial Generalization

Kishor Jothimurugan ⋅ Steve Hsu ⋅ Osbert Bastani ⋅ Rajeev Alur

Video

Biological Neurons vs Deep Reinforcement Learning: Sample efficiency in a simulated game-world

Forough Habibollahi ⋅ Moein Khajehnejad ⋅ Amitesh Gaurav ⋅ Brett J. Kagan

Video

Inducing Functions through Reinforcement Learning without Task Specification

Junmo Cho ⋅ Donghwan Lee ⋅ Young-Gyu Yoon

Video

Learning Successor Feature Representations to Train Robust Policies for Multi-task Learning

Melissa Mozifian ⋅ Dieter Fox ⋅ David Meger ⋅ Fabio Ramos ⋅ Animesh Garg

Automated Dynamics Curriculums for Deep Reinforcement Learning

Sean Metzger

Supervised Q-Learning for Continuous Control

Hao Sun ⋅ Ziping Xu ⋅ Taiyi Wang ⋅ Meng Fang ⋅ Bolei Zhou

Video

MOPA: a Minimalist Off-Policy Approach to Safe-RL

Hao Sun ⋅ Ziping Xu ⋅ Zhenghao Peng ⋅ Meng Fang ⋅ Bo Dai ⋅ Bolei Zhou

Video

Novel Policy Seeking with Constrained Optimization

Hao Sun ⋅ Zhenghao Peng ⋅ Bolei Zhou

Video

Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference

Hao Sun ⋅ Taiyi Wang

Video