人工智能的另一个战场：Books3数据集下线引发的版权之争

2023-08-23 14:12 作者:ReadPaper论文阅读 0人读过 | 我要投稿

Books3数据集，包含近20万本书的文本，被用于训练人工智能模型，近期被丹麦反盗版组织Rights Alliance要求下线。这一数据集由The Eye网站托管，是更大项目The Pile的一部分，旨在为语言模型提供开源数据。Rights Alliance代表丹麦的出版商和作者，发现Books3包括其成员的约150个标题，并采取了法律行动。此外，Books3数据集还被Meta等公司用于训练其AI模型。虽然原始下载链接已下线，但数据集在网络上仍有备份（需要在推特上自行搜索一下）。

Books3数据集的下线不仅是一场针对特定数据集的战斗，更是一场涉及版权、开源和商业利益的复杂战争。从学术角度来看，这一事件可能会限制开源AI项目的发展，使得只有大公司能够访问和使用这些资源。从商业角度来看，这可能会引发一场关于AI训练数据的透明度和合规性的讨论，可能导致更严格的监管。

学术影响：：Books3数据集的下线可能会限制小型和开源AI项目的发展。这一数据集的目的是为了打破大公司对AI训练数据的垄断，使更多人能够参与AI的创新。没有这样的开源资源，小型研究团队和个人开发者可能难以与大公司竞争。而且，这也引发一个思考，我们是不是可以做一些这样的学术研究：如何合理规范地使用数据进行AI的训练。

商业影响：此事件可能会引发关于AI训练数据的版权问题的更广泛讨论。如果大公司如Meta被发现使用盗版书籍进行AI训练，可能会引发法律诉讼和公众舆论的质疑。这可能会推动更严格的监管和透明度要求，迫使公司公开他们的训练数据来源。

特邀作者：早稻田大学计算机系在读博士王军杰

标签：人工智能 AI

人工智能的另一个战场：Books3数据集下线引发的版权之争

人工智能的另一个战场：Books3数据集下线引发的版权之争的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

人工智能的另一个战场：Books3数据集下线引发的版权之争

本文作者的其他文章

人工智能的另一个战场：Books3数据集下线引发的版权之争的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

人工智能的另一个战场：Books3数据集下线引发的版权之争的评论 (共条)