Reinforcement Learning

The Reinforcement Learning Framework

RL is formalized as a Markov Decision Process (MDP): Agent observes state sâ‚œ, takes action aâ‚œ, receives reward râ‚œâ‚Šâ‚, transitions to next state sâ‚œâ‚Šâ‚. Goal: maximize cumulative discounted reward.

State sâ‚œ â†’ Agent (Policy Ï€) â†’ Action aâ‚œ â†’ Environment â†’ Reward râ‚œâ‚Šâ‚, Next state sâ‚œâ‚Šâ‚

The agent learns to map states to actions to maximize return Gâ‚œ = Î£ Î³áµ râ‚œâ‚Šâ‚–â‚Šâ‚.

Î³ (gamma): discount factor

Ï€ (policy): behavior

V(s): state-value

Q(s,a): action-value

Bellman Equations & Dynamic Programming

Bellman Expectation Equations

V^Ï€(s) = Î£ Ï€(a|s) [R(s,a) + Î³ Î£ P(s'|s,a) V^Ï€(s')]

Q^Ï€(s,a) = R(s,a) + Î³ Î£ P(s'|s,a) Î£ Ï€(a'|s') Q^Ï€(s',a')

Recursive decomposition of value.

Bellman Optimality Equations

V^*(s) = max_a [R(s,a) + Î³ Î£ P(s'|s,a) V^*(s')]

Q^*(s,a) = R(s,a) + Î³ Î£ P(s'|s,a) max_a' Q^*(s',a')

Optimal values satisfy these fixed-point equations.

Policy Iteration

Evaluate V^Ï€ (solve linear system)
Improve Ï€: greedy wrt V^Ï€
Repeat until convergence

Value Iteration

Initialize V(s)=0
V(s) â† max_a [R(s,a) + Î³ Î£ P V(s')]
Converges to V^*

Value Iteration (Gridworld)

import numpy as np

def value_iteration(P, R, gamma=0.9, theta=1e-6):
    n_states = P.shape[0]
    n_actions = P.shape[1]
    V = np.zeros(n_states)
    
    while True:
        delta = 0
        for s in range(n_states):
            v = V[s]
            # Bellman optimality backup
            V[s] = max([sum([P[s, a, s'] * (R[s, a, s'] + gamma * V[s']) 
                           for s' in range(n_states)]) for a in range(n_actions)])
            delta = max(delta, abs(v - V[s]))
        if delta < theta:
            break
    # Extract policy
    policy = np.zeros(n_states, dtype=int)
    for s in range(n_states):
        policy[s] = np.argmax([sum([P[s, a, s'] * (R[s, a, s'] + gamma * V[s']) 
                                   for s' in range(n_states)]) for a in range(n_actions)])
    return policy, V

Model-Free Learning: Monte Carlo & TD

When dynamics (P,R) are unknown, learn from experience.

Monte Carlo (MC)

Complete episodes, average returns.

V(s) â† V(s) + Î± [Gâ‚œ - V(s)]

High variance, unbiased.

Temporal Difference (TD0)

Bootstrap: V(s) â† V(s) + Î± [r + Î³V(s') - V(s)]

Lower variance, biased.

TD Error: Î´ = r + Î³V(s') - V(s)

TD(Î») / Eligibility Traces

Unify MC and TD. Credit assignment over multiple steps.

V(s) â† V(s) + Î± Î´ e(s)

Q-Learning & SARSA

Q-Learning (Off-Policy)

Q(s,a) â† Q(s,a) + Î± [r + Î³ max_a' Q(s',a') - Q(s,a)]

Learns optimal Q* regardless of behavior policy. Uses max.

Exploration: Îµ-greedy

SARSA (On-Policy)

Q(s,a) â† Q(s,a) + Î± [r + Î³ Q(s',a') - Q(s,a)]

Learns Q for behavior policy. More stable, safer for live systems.

Q-Learning for FrozenLake (OpenAI Gym)

import gymnasium as gym
import numpy as np

env = gym.make('FrozenLake-v1', is_slippery=True)
n_states = env.observation_space.n
n_actions = env.action_space.n
Q = np.zeros((n_states, n_actions))

alpha = 0.1
gamma = 0.99
epsilon = 0.1
episodes = 10000

for episode in range(episodes):
    state, _ = env.reset()
    done = False
    
    while not done:
        # Îµ-greedy
        if np.random.random() < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state])
        
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        
        # Q-Learning update
        best_next = np.max(Q[next_state])
        td_target = reward + gamma * best_next * (1 - done)
        td_error = td_target - Q[state, action]
        Q[state, action] += alpha * td_error
        
        state = next_state

# Evaluate
state, _ = env.reset()
done = False
total_reward = 0
while not done:
    action = np.argmax(Q[state])
    state, reward, terminated, truncated, _ = env.step(action)
    done = terminated or truncated
    total_reward += reward
print(f"Test reward: {total_reward}")

Deep Q-Networks (DQN)

When state space is continuous/high-dimensional, use neural networks as Q-function approximators.

DQN Innovations

Experience Replay: Store transitions (s,a,r,s') in buffer, sample randomly. Breaks correlation.
Target Network: Fixed Q_target for TD target. Updated periodically.
Gradient Clipping: Huber loss for stability.

DQN Training Loop (PyTorch)

class DQN(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(state_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 128),
            nn.ReLU(),
            nn.Linear(128, action_dim)
        )
    
    def forward(self, x):
        return self.net(x)

# Training step
def optimize_dqn():
    if len(replay_buffer) < batch_size:
        return
    states, actions, rewards, next_states, dones = replay_buffer.sample(batch_size)
    
    # Compute Q(s, a)
    q_values = policy_net(states).gather(1, actions)
    
    # Compute target: r + Î³ max_a' Q_target(s', a')
    with torch.no_grad():
        next_q_values = target_net(next_states).max(1, keepdim=True)[0]
        targets = rewards + gamma * next_q_values * (1 - dones)
    
    loss = nn.HuberLoss()(q_values, targets)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

DQN Variants: Double DQN (reduce overestimation), Dueling DQN (separate V and advantage), PER (prioritized replay), Rainbow (combines all).

Policy Gradient: REINFORCE

Directly optimize policy Ï€(a|s; Î¸) using gradient ascent on expected return.

Policy Gradient Theorem

âˆ‡J(Î¸) = E_Ï€ [âˆ‡log Ï€(a|s; Î¸) Â· Q^Ï€(s,a)]

REINFORCE: Monte Carlo estimate of Q^Ï€ using Gâ‚œ.

# REINFORCE update
for t in range(episode_len):
    G = sum(gamma**k * r[t+k] for k in range(episode_len-t))
    loss = -log Ï€(a[t]|s[t]) * G
    loss.backward()

Advantage: Reduce Variance

Use baseline b(s): âˆ‡log Ï€ Â· (Gâ‚œ - b(s)). Common: state-value V(s).

A(s,a) = Q(s,a) - V(s) = advantage function.

Actor-Critic Methods

Combine policy-based (actor) and value-based (critic) learning. Actor updates policy in direction suggested by critic.

A2C / A3C

Actor: âˆ‡log Ï€(a|s) * A(s,a)

Critic: TD error Î´ = r + Î³V(s') - V(s)

A3C: Asynchronous parallel workers. A2C: synchronous.

PPO â€“ Proximal Policy Optimization

Clipped surrogate objective prevents too large policy updates.

L^CLIP(Î¸) = E[min(r(Î¸) A, clip(r(Î¸), 1-Îµ, 1+Îµ) A)]

Default in OpenAI, DeepMind

SAC â€“ Soft Actor-Critic

Maximize reward + entropy â†’ better exploration.

J(Ï€) = Î£ E[r + Î± H(Ï€(Â·|s))]

State-of-the-art for continuous control.

DDPG / TD3

Deterministic policy gradients for continuous actions. DDPG + twin critics + target policy smoothing = TD3.

Practical RL with Stable-Baselines3

Industry-standard library for RL. Provides tested implementations of PPO, SAC, DQN, etc.

PPO with Stable-Baselines3

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# Create environment
env = make_vec_env('CartPole-v1', n_envs=4)

# Initialize PPO
model = PPO(
    policy='MlpPolicy',
    env=env,
    learning_rate=3e-4,
    n_steps=2048,
    batch_size=64,
    n_epochs=10,
    gamma=0.99,
    verbose=1
)

# Train
model.learn(total_timesteps=100000)

# Save and load
model.save("ppo_cartpole")
model = PPO.load("ppo_cartpole")

# Evaluate
obs = env.reset()
for _ in range(1000):
    action, _ = model.predict(obs, deterministic=True)
    obs, reward, done, info = env.step(action)

Multi-Agent & Advanced RL

MARL

Multiple agents: cooperative, competitive, or mixed.

VDN, QMIX, MADDPG.

Inverse RL

Infer reward function from expert demonstrations.

Hierarchical RL

Options, temporal abstraction.

RL Algorithm Comparison

Algorithm	Type	Action Space	Policy	Stability	Sample Efficiency
Q-Learning	Value	Discrete	Off-policy	ââ	ââ
DQN	Value	Discrete	Off-policy	âââ	âââ
REINFORCE	Policy	Both	On-policy	â	â
A2C/A3C	Actor-Critic	Both	On-policy	âââ	ââ
PPO	Actor-Critic	Both	On-policy	ââââ	âââ
SAC	Actor-Critic	Continuous	Off-policy	ââââ	ââââ
TD3	Actor-Critic	Continuous	Off-policy	ââââ	ââââ

RL in the Wild

Games

AlphaGo, Dota 5, StarCraft II

Robotics

Manipulation, locomotion

Drug Discovery

Molecule generation

Finance

Portfolio optimization

OpenAI Gym Gymnasium MuJoCo PyBullet Unity ML-Agents