GPT-4观察到的安全挑战
GPT-4在推理、知识保留和与GPT-2和GPT-3等早期模型相比,这些改进中的许多也带来了新的安全挑战。

我们对GPT-4进行了一系列定性和定量评估。这些评估帮助我们了解GPT-4的能力、局限性和风险;优先考虑我们的迁移难度;并反复测试和构建更安全的模型版本。一些具体的我们探讨的风险有:
•幻觉
•有害成分
•代表性、分配和服务质量的危害
•消毒和影响操作•常规和非常规武器的扩散
•隐私•网络安全
•风险突发行为的可能性
•经济影响
•加速度
•过度依赖

我们发现GPT-4早期和GPT-4发射表现出许多与早期相同的局限性语言模型,例如产生有偏见和不可靠的内容。在我们采取缓解措施之前我们还发现,GPT-4早期在发现销售非法商品或服务的网站,以及策划攻击。