#alignment

1 page

RLHF: Reinforcement Learning from Human Feedback

Teaching language models to prefer responses that people rank higher

AIpedia · Open-source AI/ML reference