Workshop

The Optimization Foundations of Reinforcement Learning

Bo Dai ⋅ Niao He ⋅ Nicolas Le Roux ⋅ Lihong Li ⋅ Dale Schuurmans ⋅ Martha White

Project Page

Abstract

Interest in reinforcement learning (RL) has boomed with recent improvements in benchmark tasks that suggest the potential for a revolutionary advance in practical applications. Unfortunately, research in RL remains hampered by limited theoretical understanding, making the field overly reliant on empirical exploration with insufficient principles to guide future development. It is imperative to develop a stronger fundamental understanding of the success of recent RL methods, both to expand the useability of the methods and accelerate future deployment. Recently, fundamental concepts from optimization and control theory have provided a fresh perspective that has led to the development of sound RL algorithms with provable efficiency. The goal of this workshop is to catalyze the growing synergy between RL and optimization research, promoting a rational reconsideration of the foundational principles for reinforcement learning, and bridging the gap between theory and practice.

Chat is not available.

Schedule

Timezone: America/Los_Angeles

8:00 AM

Opening Remarks

Bo Dai ⋅ Niao He ⋅ Nicolas Le Roux ⋅ Lihong Li ⋅ Dale Schuurmans ⋅ Martha White

8:10 AM

Unsupervised State Embedding and Aggregation towards Scalable Reinforcement Learning

Mengdi Wang

8:50 AM

Adaptive Trust Region Policy Optimization: Convergence and Faster Rates of regularized MDPs

Lior Shani ⋅ Yonathan Efroni ⋅ Shie Mannor

9:10 AM

Poster Spotlight 1

David Brandfonbrener ⋅ Joan Bruna ⋅ Tom Zahavy ⋅ Haim Kaplan ⋅ Yishay Mansour ⋅ Nikos Karampatziakis ⋅ John Langford ⋅ Paul Mineiro ⋅ Donghwan Lee ⋅ Niao He

9:30 AM

Poster and Coffee Break 1

Aaron Sidford ⋅ Aditya Mahajan ⋅ Alejandro Ribeiro ⋅ Alex Lewandowski ⋅ Ali H Sayed ⋅ Ambuj Tewari ⋅ Angelika Steger ⋅ Anima Anandkumar ⋅ Asier Mujika ⋅ Hilbert J Kappen ⋅ Bolei Zhou ⋅ Byron Boots ⋅ Chelsea Finn ⋅ Chen-Yu Wei ⋅ Chi Jin ⋅ Ching-An Cheng ⋅ Christina Yu ⋅ Clement Gehring ⋅ Craig Boutilier ⋅ Dahua Lin ⋅ Daniel McNamee ⋅ Daniel Russo ⋅ David Brandfonbrener ⋅ Denny Zhou ⋅ Devesh Jha ⋅ Diego Romeres ⋅ Doina Precup ⋅ Dominik Thalmeier ⋅ Eduard Gorbunov ⋅ Elad Hazan ⋅ Elena Smirnova ⋅ Elvis Dohmatob ⋅ Emma Brunskill ⋅ Enrique Munoz de Cote ⋅ Ethan Waldie ⋅ Florian Meier ⋅ Florian Schaefer ⋅ Ge Liu ⋅ Gergely Neu ⋅ Haim Kaplan ⋅ Hao Sun ⋅ Hengshuai Yao ⋅ Jalaj Bhandari ⋅ James A Preiss ⋅ Jayakumar Subramanian ⋅ Jiajin Li ⋅ Jieping Ye ⋅ Jimmy Smith ⋅ Joan Bas Serrano ⋅ Joan Bruna ⋅ John Langford ⋅ Jonathan Lee ⋅ Jose A. Arjona-Medina ⋅ Kaiqing Zhang ⋅ Karan Singh ⋅ Yuping Luo ⋅ Zafarali Ahmed ⋅ Zaiwei Chen ⋅ Zhaoran Wang ⋅ Zhizhong Li ⋅ Zhuoran Yang ⋅ Ziping Xu ⋅ Ziyang Tang ⋅ Yi Mao ⋅ David Brandfonbrener ⋅ Shirli Di-Castro ⋅ Riashat Islam ⋅ Zuyue Fu ⋅ Abhishek Naik ⋅ Saurabh Kumar ⋅ Benjamin Petit ⋅ Angeliki Kamoutsi ⋅ Simone Totaro ⋅ Arvind Raghunathan ⋅ Rui Wu ⋅ Donghwan Lee ⋅ Dongsheng Ding ⋅ Alec Koppel ⋅ Hao Sun ⋅ Christian Tjandraatmadja ⋅ Mahdi Karami ⋅ Jincheng Mei ⋅ Chenjun Xiao ⋅ Junfeng Wen ⋅ Zichen Zhang ⋅ Ross Goroshin ⋅ Mohammad Pezeshki ⋅ Jiaqi Zhai ⋅ Philip Amortila ⋅ Shuo Huang ⋅ Mariya Vasileva ⋅ El houcine Bergou ⋅ Adel Ahmadyan ⋅ Haoran Sun ⋅ Sheng Zhang ⋅ Lukas Gruber ⋅ Yuanhao Wang ⋅ Tetiana Parshakova

10:30 AM

The Provable Effectiveness of Policy Gradient Methods in Reinforcement Learning

Sham Kakade

11:10 AM

Panel Discussion

Richard Sutton ⋅ Doina Precup

11:40 AM

Poster Spotlight 2

Aaron Sidford ⋅ Mengdi Wang ⋅ Lin Yang ⋅ Yinyu Ye ⋅ Zuyue Fu ⋅ Zhuoran Yang ⋅ Yongxin Chen ⋅ Zhaoran Wang ⋅ Ofir Nachum ⋅ Bo Dai ⋅ Ilya Kostrikov ⋅ Dale Schuurmans ⋅ Ziyang Tang ⋅ Yihao Feng ⋅ Lihong Li ⋅ Denny Zhou ⋅ Qiang Liu ⋅ Rodrigo Toro Icarte ⋅ Ethan Waldie ⋅ Toryn Klassen ⋅ Rick Valenzano ⋅ Margarita Castro ⋅ Simon Du ⋅ Sham Kakade ⋅ Ruosong Wang ⋅ Minshuo Chen ⋅ Tianyi Liu ⋅ Xingguo Li ⋅ Zhaoran Wang ⋅ Tuo Zhao ⋅ Philip Amortila ⋅ Doina Precup ⋅ Prakash Panangaden ⋅ Marc Bellemare

2:00 PM

Reinforcement Learning Beyond Optimization

Benjamin Van Roy

2:40 PM

Learning in structured MDPs with convex cost function: improved regret bounds for inventory management

Shipra Agrawal

3:20 PM

Poster and Coffee Break 2

Karol Hausman ⋅ Kefan Dong ⋅ Ken Goldberg ⋅ Lihong Li ⋅ Lin Yang ⋅ Lingxiao Wang ⋅ Lior Shani ⋅ Liwei Wang ⋅ Loren Amdahl-Culleton ⋅ Lucas Cassano ⋅ Marc Dymetman ⋅ Marc Bellemare ⋅ Marcin Tomczak ⋅ Margarita Castro ⋅ Marius Kloft ⋅ Marius-Constantin Dinu ⋅ Markus Holzleitner ⋅ Martha White ⋅ Mengdi Wang ⋅ Michael Jordan ⋅ Mihailo Jovanovic ⋅ Ming Yu ⋅ Minshuo Chen ⋅ Moonkyung Ryu ⋅ Muhammad Zaheer ⋅ Naman Agarwal ⋅ Nan Jiang ⋅ Niao He ⋅ Nikolaus Yasui ⋅ Nikos Karampatziakis ⋅ Nino Vieillard ⋅ Ofir Nachum ⋅ Olivier Pietquin ⋅ Ozan Sener ⋅ Pan Xu ⋅ Parameswaran Kamalaruban ⋅ Paul Mineiro ⋅ Paul Rolland ⋅ Philip Amortila ⋅ Pierre-Luc Bacon ⋅ Prakash Panangaden ⋅ Qi Cai ⋅ Qiang Liu ⋅ Quanquan Gu ⋅ Raihan Seraj ⋅ Richard Sutton ⋅ Rick Valenzano ⋅ Robert Dadashi ⋅ Rodrigo Toro Icarte ⋅ Roshan Shariff ⋅ Roy Fox ⋅ Ruosong Wang ⋅ Saeed Ghadimi ⋅ Samuel Sokota ⋅ Sean Sinclair ⋅ Sepp Hochreiter ⋅ Sergey Levine ⋅ Sergio Valcarcel Macua ⋅ Sham Kakade ⋅ Shangtong Zhang ⋅ Sheila McIlraith ⋅ Shie Mannor ⋅ Shimon Whiteson ⋅ Shuai Li ⋅ Shuang Qiu ⋅ Wai Lok Li ⋅ Siddhartha Banerjee ⋅ Sitao Luan ⋅ Tamer Basar ⋅ Thinh Doan ⋅ Tianhe Yu ⋅ Tianyi Liu ⋅ Tom Zahavy ⋅ Toryn Klassen ⋅ Tuo Zhao ⋅ Vicenç Gómez ⋅ Vincent Liu ⋅ Volkan Cevher ⋅ Wesley Suttle ⋅ Xiao-Wen Chang ⋅ Xiaohan Wei ⋅ Xiaotong Liu ⋅ Xingguo Li ⋅ Xinyi Chen ⋅ Xingyou Song ⋅ Yao Liu ⋅ YiDing Jiang ⋅ Yihao Feng ⋅ Yilun Du ⋅ Yinlam Chow ⋅ Yinyu Ye ⋅ Yishay Mansour ⋅ ⋅ Yonathan Efroni ⋅ Yongxin Chen ⋅ Yuanhao Wang ⋅ Bo Dai ⋅ Chen-Yu Wei ⋅ Harsh Shrivastava ⋅ Hongyang Zhang ⋅ Qinqing Zheng ⋅ SIDDHARTHA SATPATHI ⋅ Xueqing Liu ⋅ Andreu Vall

4:20 PM

On the Convergence of GTD($\lambda$) with General $\lambda$

Huizhen Yu

5:00 PM

Continuous Online Learning and New Insights to Online Imitation Learning

Jonathan Lee ⋅ Ching-An Cheng ⋅ Ken Goldberg ⋅ Byron Boots

5:20 PM

Logarithmic Regret for Online Control

Naman Agarwal ⋅ Elad Hazan ⋅ Karan Singh

5:40 PM

Closing Remarks

Bo Dai ⋅ Niao He ⋅ Nicolas Le Roux ⋅ Lihong Li ⋅ Dale Schuurmans ⋅ Martha White