欢迎光临散文网 会员登陆 & 注册

AI数据“毒害”现象:模型崩溃与人工生成的数据

2023-08-23 20:14 作者:Ai灵魂创造  | 我要投稿

AI数据“毒害”现象:模型崩溃与人工生成的数据

人工智能生成的文本正逐渐蔓延,引发越来越多的关注。这种AI产生的数据“毒害”现象,有点类似于过去核试验引发的放射性尘埃问题,对我们的文本模型产生了困扰,而目前尚缺乏有效的“解毒剂”。

就像人类在过去的核试验中,不断释放放射性尘埃污染了环境,AI模型在生成数据时也可能污染了自身。这让我想到了核试验所导致的辐射对钢材的影响。通过放射性尘埃污染的大气,进入了新钢材中,导致其辐射性增加。而在AI生成数据方面,研究人员发现,将一些由AI生成的语料作为训练数据,再用这些数据来训练新模型,会导致模型每次迭代时错误累积,末端产生错误的输出。

在英国牛津大学的研究中,舒迈洛夫和团队观察到了这种“模型崩溃”现象,即模型的输出变得混乱不清。这种现象也在其他研究中得到了证实,不仅仅局限于语言模型,还包括生成手写数字和区分概率分布等模型。萨卡尔的实验也显示,即使是部分由AI生成的数据集也会对模型产生影响。

这种现象可能与数据集中的“尾部”有关,即出现频率较低的数据元素。这些数据与“标准”数据差异较大,可能导致模型崩溃,失去了多样性。这使得模型的输出逐渐失去与人类数据相似的特点。

这种问题可能会加剧模型对边缘群体的偏见,这让人忧虑。为了遏制这一问题,舒迈洛夫强调,我们需要努力阻止模型崩溃的发生。虽然AI生成的内容正逐渐渗透到训练数据领域,但在防止模型崩溃方面,我们可以采用一些方法。例如,萨卡尔提出了使用由人类策划的“标准化”图像数据集,这些数据集仅包含人类创作的内容,可以供开发人员使用。

然而,解决这一问题并非易事。使用历史数据或合成内容来训练模型可能不是优解决方案。历史数据可能无法满足不断变化的模型需求,而合成内容可能难以与人工生成的数据相区分。这意味着我们需要发展出能够区分这些数据的技术,以便过滤掉人工生成的数据,确保模型输出的准确性。

总之,人工智能生成的文本“毒害”现象正逐渐显现,需要我们采取有效措施来应对。与核试验释放的放射性尘埃类似,这种问题可能对模型的准确性和多样性产生深远影响。只有通过不断的研究和创新,我们才能找到解决这一问题的方法,确保人工智能技术的持续发展。

AI数据“毒害”现象:模型崩溃与人工生成的数据的评论 (共 条)

分享到微博请遵守国家法律