Home About YY Help Changes

Scaling Laws for Reward Model Overoptimization

https://arxiv.org/abs/2210.10760
Leo Gao, John Schulman, Jacob Hilton

Reward model, Reinforcement learning

« Paper/Gao2022scaling »