Detecting Pretraining Data from Large Language Models

https://arxiv.org/abs/2310.16789
Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer

LLM Data, LLM Security