Prompting GPT-3 To Be Reliable

https://arxiv.org/abs/2210.09150
Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang

LLMs, GPT 3, Prompt tuning

The paper measures the reliability of a Language model based on four factors: generalizability, fairness, calibration, and factuality.