欢迎光临散文网 会员登陆 & 注册

封面图由AI生成

2023-04-08 23:20 作者:随便乱剪的迷羽君  | 我要投稿

你可能认得出封面上的这个人,美国歌星泰勒·斯威夫特(Taylor Swift),但正如标题所说,这张封面图上Taylor Swift是由AI生成的。


这周我发现了一个在线AI绘画平台,这个平台和那些生成图一眼看起来就非常廉价的平台不同,这个平台出图的精致程度明显不是一个等级。甚至还可以训练自己的风格库。

于是我就训练了一个泰勒·斯威夫特的风格库。本文的所有配图都是用这个风格库生成的。

最近两周之所以一个视频没发,就是因为我一直在玩这个。当然,我也同时在忙着毕业的事情,但忙里偷闲分了时间玩这个,自然就没时间做视频了。

(这是一篇经验分享文。我倒希望是广告,这样万一以后收费了我说不定还能拿一个什么永久VIP呢)



这可以说是一张独一无二的照片,因为它是我虚构出来的,目前还没有在互联网上进行传播。

这是我第一次接触AI绘画,而这甚至不是Midjourney、Stable Diffusion等更复杂的、自主性更强的绘画AI,可以说是展露了目前AI发展的冰山一角,却依然带给了我不小的震撼。

作为一个开放的平台,这个平台操作要求非常傻瓜式,你只需要选择一个基础模型,丢给它事先准备好的十到八十张图片,然后,等待十多分钟至一个小时不等,就可以直接训练出来了。

一开始我随便找了五十张泰勒·斯威夫特的照片——作为目前可能是全球最火的歌星,她的图片很好找,这也是我选择她的原因之一——训练了第一个风格库版本,我称其为“霉霉-50-0405”

霉霉是中国粉丝对她的昵称,50指用了50张图训练,0405则是日期。

最后出来的效果竟然还不错。虽然一开始生成的那个女人最多只能称之为泰勒的远房亲戚,但是后面生成的图还真像那么回事儿。

但说实话,想描述还真是一个不简单的活,一方面我希望最后的结果尽可能自然,但是另一方面我又希望生成的图片足够离谱,以突出AI的能力。舍友阿超知道后脱口而出:

“让她穿护士装!”

哎?这我倒是没想到,而且这个好像还真可以?

我键入“泰勒·斯威夫特穿护士装”,静候了一分钟,“泰勒·斯威夫特”就穿上了护士装。

我第一眼看到的时候吓了一跳:还真挺像!

这还只是训练了五十张,那我要是扔给八十张,那不是可以以假乱真?

于是我真的找了八十张泰勒的照片,搜集之前还煞有介事地搜了介绍AI绘画训练集相关的文章,了解训练集图片的要求。比如AI识别脸有困难,因此需要尽可能多的各种面部表情、各种角度的面部图片,但也不能全是脸,也得有一部分半身、全身照,让AI捕捉人的身体比例、动作。非要给一个数字的话,脸、半身和全身的数据比例大致在6:3:1。

我按照这篇文章的要求搜集、处理了八十张图片,然后把图片全部扔了进去,“霉霉-80-0405”就此诞生。

我迫不及待地让“霉霉-80-0405”生成了两张图,但结果让我大失所望。不是因为不像,像其实也蛮像的,但是我不理解,为什么在付出了比“霉霉-50-0405”更多努力的情况下,效果却更差了,这是完完全全的“事倍功半”。

(同样的描述,第一张是“霉霉-50-0405”生成的图,第二张是“霉霉-80-0405”生成的图)


我沮丧地把消息告诉了阿超,阿超说道:“哎,这很正常,神经网络这种东西本来就很玄学的,不是训练得越多就越好的。”哪怕我自认自己准备训练图集的努力已经足够科学了,却依然没有得到理想的结果。



这似乎是当下人们和新近AI产品打交道的常态,不管是训练还是提问,人们都会发现随着AI变得越来越强大,我们越来越需要掌控使用AI的技巧。GPT火起来之后,“提示工程(Prompt Engineering)”这个名词随之走进了大众视野,因为人们发现,同样都是用GPT,为什么在别人手里又能写代码又能写文章的全能神,但在自己手里却还是那个乱给资料的“人工智障”呢?

人类早就知道提问很重要,比如爱因斯坦就说过“提出一个问题往往比解决一个问题更重要”,十年前美国的尼尔·布朗和斯图尔特·基利也写过一本书叫《学会提问》,但我们始终将提问视为一种应用于人与人之间社交技巧,而从来没有想过我们有一天在使用AI的时候也需要斟酌如何提问。

作为一个普通人,我依然不知道AI的发展到了一个什么样的阶段,但当我意识到我开始用对待人的技巧去对待AI,甚至在对GPT提问时我还会用“请”字时,事情就变得有些令人玩味了。

回到AI绘画上来。如果不了解控制AI的一些技巧,使用AI的体验就是“有心栽花花不开,无心插柳柳成荫”。它会带来惊喜——比如“霉霉-50-0405”,但是时不时又会让人失望——比如“霉霉-80-0405”。但当我知道使用AI需要技巧之后,事情的性质就发生了变化——我对AI的质疑会转移到我自己身上:是不是我的提问不对所以才得不到想要的答案。当它表现不好时,反而会促使我不由自主地去探索它的可能性,不管是它超越人类的那种可能性,还是“人工智障”的那种可能性。

我得说,这种不确定的惊喜就像一个更良心的老虎机,还是挺让人上瘾的。


调整好心态后,我决定就使用“霉霉-50-0405”了,反正它也已经够好了,虽然我并不知道为什么随意丢了五十张图的效果能这么好,但就这样吧。虽然不是程序员,但我也知道“程序只要能跑就不要动它”的道理。

何况我也动不了。

我生成了不少泰勒·斯威夫特的平行时空街拍,手部——这个AI绘画的硬伤依然难以克服,但是只看小图还是能把人唬到的。


当然,既然都有GPT了,我为什么还要自己想描述呢?于是我直接将整个过程中实际最费脑力的工作也一并交给了AI:

“Please generate twenty reasonable but never present descriptions of Taylor Swift's attire for AI to generate images.(请生成二十个合理但从未在现实出现过的泰勒·斯威夫特的穿搭描述以供AI生成图像。)”

GPT勤勤恳恳地完成了这一切,除了中途提示“sexy”为违禁词(其实我觉得这说不上违禁)让我改了一下以外,也没有什么问题,生成的图片质量也都不错。

最后我将魔爪伸向了我的朋友吴迪,对,又是他,我有什么离谱的想法总是第一时间和他分享讨论,他也就经常成为我离谱想法的第一个受害者。

我找吴迪要了他的五十张照片,接下来……

如果是AI,应该可以补充出“我训练了一个吴迪的风格库”这件事,但既然我都有两个人的风格库了,完全可以再大胆一点。

我找了一张泰勒·斯威夫特和男粉丝的合影。

然后在“条件生图”模式下进行了这样的描述:

“泰勒·斯威夫特穿着黑色卫衣,背着一个黑色背包,扎着马尾辫,和一个男人合影。”

得到了这么一张图:

似乎有点假?是有点,而且你都不用认真看就会发现这个男人的头发其实和泰勒的头发是一样的,有的地方甚至还连在了一起,但让我们先继续吧。

我在“图生图”模式中用画笔涂满了男人的脸,表示这个地方是AI用功的地方,再叠加上吴迪的风格库……

然后我就得到了一张……嗯……不太像,但似乎还有点那么回事的合照,不过再用“美图秀秀”加点颗粒、再加个拍立得效果,我们就得到了:

这么一张合照。

这张合照有两面性。

从好的方面看,AI首先是我们创造力的工具,我们可以通过AI让自己的创意落地,去完成各种各样有趣的工作;

从坏的方面看,虽然这张图片依然很假,但它迟早会发展到能生成出一张让人分不清到底是不是真正的照片的图片。人们“制造真实”的能力变得越来越强,成本也越来越低,结合此前“造黄谣”的话题,如果人们用这种“制造真实”的能力相互攻击,情况也许不至于“不堪设想”,但至少会变得相当棘手。

当“有图也无真相”、乃至“有视频也无真相”的时候,虚假越来越接近真实的时候,真实生存的余地越来越小的时候,真实就会越来越奢侈。这就好比当在线交流、网络会议越来越方便的时候,线下的见面就越来越郑重。

之前在GPT的文章中,我说我们要珍惜我们还有用的日子,现在我又要说了:珍惜我们真假还如此容易分辨的日子,珍惜我们还拥有真实的日子。


祝好梦


封面图由AI生成的评论 (共 条)

分享到微博请遵守国家法律