100年前这个人就预言了AI绘画?大年夜聊AI~
先给各位拜个年,虽然估计能点进来的人也早不在乎这个了。这里主要是总结一些最近了解到的内容,给忙着过年但还在想着AI发展到哪一步这件事的朋友们打个底。
Stable Diffusion 3.0可能已经在进行训练了,而我这两天才开始通过一些英文文章了解到和Stable DIffusion原理有关的东西。这方面我准备整理一下单独发,就是在非计算机专业和不看代码和数学公式的前提下,我们外行能理解到到的一种比较大层面的原理解释。其实在这事情上,有很多老外写的英文简明解释可供参考,而且我还发现,arXiv.org上的CS(计算机科学)论文没有那么难看懂,很多都是在讲AI和社会层面的事情,即使是纯技术方面的东西,不看那些代码和数学公式也能从文本中了解到它的用途。这个资源应该是了解当下AI技术进展最快的方式了。这个网站不用教育网等特殊线路,可以随便上随便看。实际上几乎所有和Stable Diffusion中的重要模型和概念有关的论文都在上面。虽然没有同行评审,但CS的论文很多都会有Demo的,所以我看国外社区的人都很看重这里的文章。某乎说这里是用来占坑的,有成果都是先发这里再投学术期刊(万一几个月以后被拒了还是能保留原创证明)。反正就是只要你能看懂英文,就不要放过这个网站,比看自媒体上那些拼凑起来的二手信息强。
多说一句,以后单靠翻译肯定是越来越难生存的,这一行的消失可能还真不是天方夜谈。尤其是口译,如果AI能用你自己的声音来说外语,对方又何必要听第三个人的声音呢?但是语言技能是绝不会被淘汰的,英语的信息和交流优势仍然有效,因为以后认真给你翻译和校对的人会越来越少,而机翻又不能保证100%无误。所以各位还是别放弃英语,只是不要再钻口音和考证的牛角尖了。
标题里说的,就是下面这张图,这真的是100年前的漫画,那时美国的电力系统才刚刚开始普及,这位漫画家已经开始想象让“主意电机” Idea Dynamo 和“卡通电机” Cartoon Dynamo 替他完成画画工作了(罐子里是墨水)。左下角写着,“到2023年我们所有的工作都是靠电力完成的。"而右边的漫画家在打电话约朋友一起去钓鱼。

膜拜一下这位漫画家!所以说很多科幻小说搞不好真的就是在预言未来。其实最后的结果可能都是一样的,只是技术路径不可预测吧。

如微软CEO所说的2023年五点预测之一提到的,AI技术正在进入S型上升轨道,用他的原话讲,互联网在全球进入主流用了30年,云技术和移动互联网用了15年,而AI只用了几个月。Stability AI的CEO也说我们现在所处的阶段是一种指数级的发展。这就是一场Revolution,而且是一场所有人都没有准备好迎接的变革。AI对全社会产业结构的改造是肯定会发生的,而且速度会非常地快。
微软、谷歌和亚马逊的万人大裁员,除了新冠居家时代的流量红利消退和经济衰退大环境之外,AI的冲击也是一个很重要的原因。谷歌就明确表示裁员是为了重整结构以满足AI时代的需求。不过根据某咨询公司的报告,很多非互联网行业大公司的IT部门,其实最近在推迟2023年与人工智能有关的新项目投资,因为现在的经济下行压力还是比较大。
领头羊Stable Diffusion的麻烦,除了艺术家团体的集体诉讼和政策游说(他们已经众筹了22万美元)外,还有了图库巨头Getty Images的诉讼挑战。和同行ShutterStock、Adobe在AI生成模型上的加速追赶不同,Getty Images在这方面相对保守,尽管他们也有AI生成方向的合作伙伴(BRIA),但一直禁止AI艺术品在自己的平台上出现。Adobe最近也否认了会用用户图像进行训练的传闻。
提到艺术家的抱怨,其实他们的抵制目标不止SD、Midjourney和Artstation,还包括Deviantart,因为后者自己也上线了一个AI生成模块。而且他们对SD的指责是”不负责任地放出开源模型“。这些艺术家可能不知道,其实SD里的核心模块之一CLIP,是来自OpenAI的开源模型,而且使用的训练集是Open AI的专有数据集。Sd v2换到了量级更大的OpenCLIP上,它的训练集就是没有经过I筛选的,所以画质有所下降。而能让AI画出很相似作品的Dreambooth“插件”,其实是来自谷歌的开源模型。这么深挖下去的话,是不是应该把微软和谷歌也拉进战场?
我对AI绘画争议的看法还是一样的,提供不出解决思路的抵制是没有意义的,一切只能在发展中摸索。从去年开始的这一轮爆炸式发展是所有人都始料未及的,甚至连“AI生成技术”都是生造出来的词汇。了解到一定原理的人多半会赞同SD的开源路线,尤其是像我这样的穷人。基于SD最便宜的云应用现在是一个月免费1000张图,你还要啥自行车?但愿AI技术能一直这样流程透明和技术开源下去,否则这一轮产业变革中的弱势群体,可能会比以前更难受。
最后提一下刚发的视频,这个模型是利用Gpt-3+SD1.5做的一组文本指导下的图生图数据集训练而成的,它的效果明显比现有的图生图和Depth-Image来得有用得多。我六个月前在Disco Diffusion里折腾半天都搞不出来的东西,这个模型已经可以一步完成了。发展就是这么快。
我还看到一个有趣的项目是训练AI画你自己的风格,这个大概才是100年前那位漫画家,也是一般艺术家们最想要的AI了。不过那个Demo好像暂时运行不了。后面再关注了。
(完)