ECE 457C Reinforcement Learning - VideoAndMovie

Introduction to reinforcement learning (RL) theory and algorithms for learning decision-making policies in situations with uncertainty and limited information. Topics include Markov decision processes, classic exact/approximate RL algorithms such as value/policy iteration, Q-learning, State-action-reward-state-action (SARSA), Temporal Difference (TD) methods, policy gradients, actor-critic, and Deep RL such as Deep Q-Learning (DQN), Asynchronous Advantage Actor Critic (A3C), and Deep Deterministic Policy Gradient (DDPG).

ECE 493 Final Exam Review Live Session

29:44

ECE 493 Final Exam Review Live Session

Deep RL 2 - Policy Gradient Review - A3C and A2C

36:53

Deep RL 2 - Policy Gradient Review - A3C and A2C

Deep RL 1 - How to Deep RL with DQN

34:24

Deep RL 1 - How to Deep RL with DQN

TD4 - Expected SARSA and Double Q-Learning

25:35

TD4 - Expected SARSA and Double Q-Learning

ECE 493 - Markov Decision Processes - Sec 3.0 - 3.1

34:13

ECE 493 - Markov Decision Processes - Sec 3.0 - 3.1

ECE493 - Week 2 - Part 3 - Experiments

17:20

ECE493 - Week 2 - Part 3 - Experiments

ECE493 - Week 2 - Part 2- e-Greedy Policy

9:33

ECE493 - Week 2 - Part 2- e-Greedy Policy

ECE493 - Week 2 - Part 1 - Multi-armed Bandits

34:02

ECE493 - Week 2 - Part 1 - Multi-armed Bandits

ET4 Eligibility Traces On Policy

14:39

ET4 Eligibility Traces On Policy

ET3 N Step TD Backward View

7:35

ET3 N Step TD Backward View

ET2 N Step TD Forward View

17:25

ET2 N Step TD Forward View

ET5 Eligibility Traces Off Policy

9:08

ET5 Eligibility Traces Off Policy

ET1 One Step vs Direct Value Updates

15:12

ET1 One Step vs Direct Value Updates

Value Function Approximation

17:32

Value Function Approximation

Policy Gradient Methods

12:42

Policy Gradient Methods

MC - Monte Carlo Methods

36:54

MC - Monte Carlo Methods

TD3 Sarsa and QLearning

20:42

TD3 Sarsa and QLearning

TD2 Comparison to MC on Random Walk

19:28

TD2 Comparison to MC on Random Walk

TD1 Temporal Difference Learning

27:36

TD1 Temporal Difference Learning

ECE 493 - Dynamic Programming 3

10:07

ECE 493 - Dynamic Programming 3

ECE 493 Dynamic Programming 2

35:34

ECE 493 Dynamic Programming 2

ECE493 Dynamic Programming 1

31:08

ECE493 Dynamic Programming 1

Week 2 - Part 4 - Bandits and Values

22:17

Week 2 - Part 4 - Bandits and Values

ECE493 - Sections 3.5 to 3.6 - MDP Value Functions

35:28

ECE493 - Sections 3.5 to 3.6 - MDP Value Functions

Week 2 - Part 5 - Regret Minimization, UCB and Thompson Sampling

44:07

Week 2 - Part 5 - Regret Minimization, UCB and Thompson Sampling

ECE493 - Sections 3.3 to 3.4 - Rewards and Returns

19:46

ECE493 - Sections 3.3 to 3.4 - Rewards and Returns