人工智能的另一个战场:Books3数据集下线引发的版权之争
2023-08-23 14:12 作者:ReadPaper论文阅读 | 我要投稿

Books3数据集,包含近20万本书的文本,被用于训练人工智能模型,近期被丹麦反盗版组织Rights Alliance要求下线。这一数据集由The Eye网站托管,是更大项目The Pile的一部分,旨在为语言模型提供开源数据。Rights Alliance代表丹麦的出版商和作者,发现Books3包括其成员的约150个标题,并采取了法律行动。此外,Books3数据集还被Meta等公司用于训练其AI模型。虽然原始下载链接已下线,但数据集在网络上仍有备份(需要在推特上自行搜索一下)。
Books3数据集的下线不仅是一场针对特定数据集的战斗,更是一场涉及版权、开源和商业利益的复杂战争。从学术角度来看,这一事件可能会限制开源AI项目的发展,使得只有大公司能够访问和使用这些资源。从商业角度来看,这可能会引发一场关于AI训练数据的透明度和合规性的讨论,可能导致更严格的监管。
学术影响::Books3数据集的下线可能会限制小型和开源AI项目的发展。这一数据集的目的是为了打破大公司对AI训练数据的垄断,使更多人能够参与AI的创新。没有这样的开源资源,小型研究团队和个人开发者可能难以与大公司竞争。而且,这也引发一个思考,我们是不是可以做一些这样的学术研究:如何合理规范地使用数据进行AI的训练。
商业影响:此事件可能会引发关于AI训练数据的版权问题的更广泛讨论。如果大公司如Meta被发现使用盗版书籍进行AI训练,可能会引发法律诉讼和公众舆论的质疑。这可能会推动更严格的监管和透明度要求,迫使公司公开他们的训练数据来源。
特邀作者:早稻田大学计算机系在读博士王军杰