千春_Chiharu 赛博coser&AI 二次元绘图研究
※本文所展示的所有内容均为学术研究用途,严禁任何形式的商业用途!
Introduction
其实打完这个标题还满惭愧的,别人家都是《XXX's LoRA模型发布》,但自己做的LoRA模型的质量确实还没到有勇气公开发布的地步。姑且先和家人们分享一下产出的图。后期如果使用新算法或者千春公布3.0新机体可能会优化模型再发布。这里想跟朋友们交流一些LoRA模型训练的想法,评论区也会有我这次实验的结果的图片数据供大家批评交流。那我先从数据集讲起。

Dataset
我基本是用千春直播截图再进行抠图,选取了大概20张没戴帽子的。

我觉得虚拟主播的数据收集其实是有先天优势的。如果我们思考机体的左右摇摆、面部表情的变化,其实可以意识到这是一种continuous连续的运动,可以带来无穷的样本数据。但相应的也会有不足:这些图像都是在固定视角、固定机位下拍摄的。像是侧身、后背这种数据是无法提供的。
我个人实验效果上,千春数据集的一个直观问题是:LoRA会认为“一只手上举一个放大镜”这个动作是一个不能动的固有属性。这导致如果你不对手臂动作做强有力的约束,在模型权重拉到0.7以上时,会有很神奇的表现:

所以在数据集方面,我建议有兴趣的小伙伴可以找千春手自然放下的直播尝试截图,并尝试截取更多表情、更多头部的摇晃位置。直觉上,如果千春实装3.0,应该会给数据集带来很大的进步。另外也可以尝试3d回的各种截图作为样本使用。
Experiment Results
本文尝试了热门模型ChilloutMix和Cetus-Mix。
ChilloutMix其实就是我们最近很树枝的赛博coser。我个人对这个模型很好奇的点是,lora会抓取什么样的信息以及在这种拟人形式图片上又有什么表现。这里展示两张我觉得效果最贴的。


直觉上,一些基本的要素是可以被lora模型捕获的。譬如说,刘海的形状、棕带红的发色、上挑眼角。整体气质可以拿下70%-80%。但仔细看来,又弗如远甚。感觉在是又不是的状态,说不上原因。所以如果用一句话来总结这个模型的效果,那就是“图一乐”。
Cetus-Mix是一个二次元绘画模型。整个结果看下来,还是在二次元绘画中比较稳健。


Cetus-Mix效果图2



虽然说有些代餐的嫌疑,总体而言还是比较贴合千春的人物设定了。观察了很多二次元角色的相关实验,均是在二次元模型上收获了较好的效果。
Discussion
我自己在赛博coser这种形式的内容流传开来前,对ai绘图是抱有悲观态度的。自己是学这块的,也看过很多ai绘图但都觉得质量很差。在进行完这次实验后也是陷入了对ai的大思考。目前没有什么思想性的东西可以分享,仅仅做一些内容的分享吧。希望有小伙伴可以做的比我更好。其实可以看到,进步的空间还是大大的有。
本文的目的还是探讨lora模型在使用虚拟主播这种“动作表情连续”但“机位固定”的角色数据集时的效果,是纯学术性质的交流,没有任何商业的目的。请大家一定尊重版权,尊重画师太太的付出。不要在未经允许的情况下使用这些技术为自己谋取利益。任何技术都要遵守相关法律法规,互联网不是法外之地。

※本文所展示的所有内容均为学术研究用途,严禁任何形式的商业用途!
※本文所展示的所有内容均为学术研究用途,严禁任何形式的商业用途!
※本文所展示的所有内容均为学术研究用途,严禁任何形式的商业用途!