#reinforcement-learning

7 pages

Combining Q-learning with deep neural networks for Atari-level game playing

A recent idea for training models on pass-fail tasks when sampling matters

Directly optimizing policies through gradient ascent on expected returns

A stable, sample-efficient policy gradient algorithm for reinforcement learning

Learning by trial and error through rewards

Teaching language models to prefer responses that people rank higher

Open-domain platform for web-based reinforcement learning agents