Deduplicating Training Data Makes Language Models Better

https://arxiv.org/abs/2107.06499
Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini