Lora模型测试 测试工作流 - 0.2
更新日志
2023年8月13日前:0.1版本
总结之前的测试流程,进行归纳总结。
2023年8月14日:0.2版本
提示词测试将会提取lora模型训练中出现频率更多的词作为提示词,而不仅只是用官方提供的词。
增加判断标准:
1.画风lora在极低tag情况下如果画面依然复杂,且多次生成时有固定元素,可能模型打标有问题。
2.人物lora在良好训练环境下,是需要对服装进行详细描述才能进行生成的。这种人物lora更可控,且可以对人物特征进行修改。
增加测试环节:
低tag画风测试:测试lora在极低tag情况下的画面生成效果。
人物lora区别测试:测试人物lora在“无触发词”,“1girl”,“详细描述的触发词”,“修改特征”这四类不同触发词情况下的生成表现。
修改测试素材:
增加人物lora测试素材,在测试画风时,对比测试画风在适配低提示词的lora与适配复杂提示词的lora的表现。
删除测试项:插件测试
插件几乎无所不能,如果模型需要依靠插件才能实现效果,那么针对模型的测试也就失去了意义。
概述
之前也做过很多模型测试,基本都是从应用层面出发对模型效果的一种固定流程的测试模式。最近整理的差不多了也是时候发布一个版本出来了。未来做测试也就是发发图了,每次整理配方真的心累,写个简评发布起来也简单很多。
另外就是之前的测试一直都有问题,其中最容易解决的就是流程不固定,没办法对照参考来判断模型质量,写这个文档也是把流程逐渐固定下来,产出的数据价值也更高一些。
交流群
微信群:

QQ群:697080799
下载链接
测试中使用的大模型:
链接:https://pan.baidu.com/s/1O8yC2B9pQwIg5b_r1ySdMw?pwd=w13k
提取码:w13k
测试中使用的lora模型:
链接:https://pan.baidu.com/s/1XO6Kl6r5nEyDhiCkJrnJ5w?pwd=tsqt
提取码:tsqt
判断标准
本测试不判断模型好坏,仅测试模型适用范围。
主要目的为展示测试数据,简评中的判断均包含强烈个人审美与使用偏好,具体使用方式应当以测试数据为准自行判断。
判断依据
使用体验:使用过程中的感受,是否易用,是否满足简单需求。
泛用性:是否兼容各种画风,是否能与其他画风进行融合。
可控性:是否能稳定的满足自身职能,并且在任何环境下生效。
可塑性:是否在满足自身只能的情况下,做一些小幅度修改。
**:是不是够色,符合我口味。
基本判断依据
不同需求人群对lora的好坏态度也不同,判断依据因人而异。这里的基本判断依据将会粗略分为两套判断标准。
第一套判断标准是“本职工作”,也就是最基础的模型素质。主要考量的是模型质量,低tag情况下表现,还原度等等。这套判断标准主要针对单一功能的模型,比如单纯对某个人物的还原,单纯生成某种场景。故而不考虑其泛用性,易用性以及tag可控性。
第二套判断标准则是模型的“想象空间”:是否兼容画风,是否具备可塑性,是否能发挥一定程度的商业价值。这套标准会更刁难模型,做它“本职”以外的事情。
在简评中将会以此为基本判断依据,用不同期望对模型进行测试,故而即便进行评分,也不建议进行横向对比,主要图一乐。具体使用方式应当以测试数据为准自行判断。
流程解释
考虑到测试目标的不同,流程将会分为固定流程与非固定流程两个板块。固定流程为同用于所有模型的固定测试环节,包括:大模型测试,lora兼容性测试,低tag生效性测试。非固定流程为按照模型信息选择性的测试环节,包括:触发词效果测试,图生图测试等,具体情况按照测试目标决定。
测试将会按照顺序进行测试,以上一轮测试的效果作为下一轮测试的标准进行优化调整。
1.基础测试
触发词测试
触发词测试将体验官方给出的触发词与返图中,可能生效的触发词进行一轮生成测试与权重测试。确保后续测试中使用的触发词为最优解。
参数测试(可选)
测试触发词的过程中如果发现官方给出参数生成效果不佳,则进行参数测试。提取官方给出的参数并进行扩大范围测试,确保后续测试中使用的参数为最优解。
2.模型效果测试
大模型测试
大模型测试将测试模型在不同大模型画风环境下的表现效果,将会采用截止至2023年8月,应用最广泛且认可度最高的15个模型进行生成测试测试。
最终将会提炼出最适合lora的1~3个模型进行详细的lora权重测试。确保后续测试中使用的模型兼容效果是最好的。
还原度测试(可选)
若模型为某个人物或某种画风的还原类模型,则选择最接近其还原对象的提示词与大模型进行生成,尝试还原最接近的效果。
兼容性测试
若为画风类型,构图类型lora,则着重使用不同人物lora对其进行测试,以考验其画风对其他人物的兼容程度,
若为人物类型,元素类型lora,则着重使用不同画风lora对其进行测试,以考验在不同环境情况下的还原效果。
若画风存在兼容可能性,则会额外增加测试流程。
例如:q版卡通绘画风格,可能可以与盲盒手办画风兼容,则进行测试。
功能性测试(可选)
lora具备功能性的前提是其还原的画风具备想象空间,例如盲盒lora对人脸的q版玩具化,油画lora对画风进行的转变。
当画风存在潜在使用空间时,则增加测试类目,对其效果进行测试。 大部分情况没必要测试那么多类型,顶多测一下图生图效果。我罗列出来顶多是增加个需要测试的备选选项。
图生图测试
使用图生图功能进行测试,测试其对素材的画风影响能力。包括但不限于:
白盒引导生成(场景):3d模型拉box引导画面生成。
照片画风迁移:把照片转化为目标画风。
插件效果测试
测试各种插件情况下,模型的生效程度以及展示配合使用的效果。包括但不限于:
CN-线稿上色:通过canny,line等,把线稿上色成图。
CN-openposs姿态控制:通过openposs引导人物动作,表情,手部动作等。
动画插件:考虑到硬件压力,虽然不建议使用,但是如果经常玩的话还是测一下的好。
重绘:使用测试对象,对目标图的局部进行遮罩重绘。
(1.1版本取消本项测试)
流程图

通用测试流程规范
测试中使用的大模型
文档链接:https://zhuanlan.zhihu.com/p/650514108
测试中使用的lora模型
文档链接:https://zhuanlan.zhihu.com/p/650514470
测试中会使用的固定tag配方
文档链接:https://zhuanlan.zhihu.com/p/650514589