Lora模型测试测试工作流 - 0.2

2023-08-17 13:51 作者:向内生长_ 0人读过 | 我要投稿

更新日志

2023年8月13日前：0.1版本

总结之前的测试流程，进行归纳总结。

2023年8月14日：0.2版本

提示词测试将会提取lora模型训练中出现频率更多的词作为提示词，而不仅只是用官方提供的词。

增加判断标准：

1.画风lora在极低tag情况下如果画面依然复杂，且多次生成时有固定元素，可能模型打标有问题。

2.人物lora在良好训练环境下，是需要对服装进行详细描述才能进行生成的。这种人物lora更可控，且可以对人物特征进行修改。

增加测试环节：

低tag画风测试：测试lora在极低tag情况下的画面生成效果。

人物lora区别测试：测试人物lora在“无触发词”，“1girl”，“详细描述的触发词”，“修改特征”这四类不同触发词情况下的生成表现。

修改测试素材：

增加人物lora测试素材，在测试画风时，对比测试画风在适配低提示词的lora与适配复杂提示词的lora的表现。

删除测试项：插件测试

插件几乎无所不能，如果模型需要依靠插件才能实现效果，那么针对模型的测试也就失去了意义。

概述

之前也做过很多模型测试，基本都是从应用层面出发对模型效果的一种固定流程的测试模式。最近整理的差不多了也是时候发布一个版本出来了。未来做测试也就是发发图了，每次整理配方真的心累，写个简评发布起来也简单很多。

另外就是之前的测试一直都有问题，其中最容易解决的就是流程不固定，没办法对照参考来判断模型质量，写这个文档也是把流程逐渐固定下来，产出的数据价值也更高一些。

交流群

微信群：

QQ群：697080799

下载链接

测试中使用的大模型：

链接：https://pan.baidu.com/s/1O8yC2B9pQwIg5b_r1ySdMw?pwd=w13k

提取码：w13k

测试中使用的lora模型：

链接：https://pan.baidu.com/s/1XO6Kl6r5nEyDhiCkJrnJ5w?pwd=tsqt

提取码：tsqt

判断标准

本测试不判断模型好坏，仅测试模型适用范围。

主要目的为展示测试数据，简评中的判断均包含强烈个人审美与使用偏好，具体使用方式应当以测试数据为准自行判断。

判断依据

使用体验：使用过程中的感受，是否易用，是否满足简单需求。

泛用性：是否兼容各种画风，是否能与其他画风进行融合。

可控性：是否能稳定的满足自身职能，并且在任何环境下生效。

可塑性：是否在满足自身只能的情况下，做一些小幅度修改。

**：是不是够色，符合我口味。

基本判断依据

不同需求人群对lora的好坏态度也不同，判断依据因人而异。这里的基本判断依据将会粗略分为两套判断标准。

第一套判断标准是“本职工作”，也就是最基础的模型素质。主要考量的是模型质量，低tag情况下表现，还原度等等。这套判断标准主要针对单一功能的模型，比如单纯对某个人物的还原，单纯生成某种场景。故而不考虑其泛用性，易用性以及tag可控性。

第二套判断标准则是模型的“想象空间”：是否兼容画风，是否具备可塑性，是否能发挥一定程度的商业价值。这套标准会更刁难模型，做它“本职”以外的事情。

在简评中将会以此为基本判断依据，用不同期望对模型进行测试，故而即便进行评分，也不建议进行横向对比，主要图一乐。具体使用方式应当以测试数据为准自行判断。

流程解释

考虑到测试目标的不同，流程将会分为固定流程与非固定流程两个板块。固定流程为同用于所有模型的固定测试环节，包括：大模型测试，lora兼容性测试，低tag生效性测试。非固定流程为按照模型信息选择性的测试环节，包括：触发词效果测试，图生图测试等，具体情况按照测试目标决定。

测试将会按照顺序进行测试，以上一轮测试的效果作为下一轮测试的标准进行优化调整。

1.基础测试

触发词测试

触发词测试将体验官方给出的触发词与返图中，可能生效的触发词进行一轮生成测试与权重测试。确保后续测试中使用的触发词为最优解。

参数测试（可选）

测试触发词的过程中如果发现官方给出参数生成效果不佳，则进行参数测试。提取官方给出的参数并进行扩大范围测试，确保后续测试中使用的参数为最优解。

2.模型效果测试

大模型测试

大模型测试将测试模型在不同大模型画风环境下的表现效果，将会采用截止至2023年8月，应用最广泛且认可度最高的15个模型进行生成测试测试。

最终将会提炼出最适合lora的1~3个模型进行详细的lora权重测试。确保后续测试中使用的模型兼容效果是最好的。

还原度测试（可选）

若模型为某个人物或某种画风的还原类模型，则选择最接近其还原对象的提示词与大模型进行生成，尝试还原最接近的效果。

兼容性测试

若为画风类型，构图类型lora，则着重使用不同人物lora对其进行测试，以考验其画风对其他人物的兼容程度，

若为人物类型，元素类型lora，则着重使用不同画风lora对其进行测试，以考验在不同环境情况下的还原效果。

若画风存在兼容可能性，则会额外增加测试流程。

例如：q版卡通绘画风格，可能可以与盲盒手办画风兼容，则进行测试。

功能性测试（可选）

lora具备功能性的前提是其还原的画风具备想象空间，例如盲盒lora对人脸的q版玩具化，油画lora对画风进行的转变。

当画风存在潜在使用空间时，则增加测试类目，对其效果进行测试。大部分情况没必要测试那么多类型，顶多测一下图生图效果。我罗列出来顶多是增加个需要测试的备选选项。

图生图测试

使用图生图功能进行测试，测试其对素材的画风影响能力。包括但不限于：

白盒引导生成（场景）：3d模型拉box引导画面生成。

照片画风迁移：把照片转化为目标画风。

插件效果测试

测试各种插件情况下，模型的生效程度以及展示配合使用的效果。包括但不限于：

CN-线稿上色：通过canny，line等，把线稿上色成图。

CN-openposs姿态控制：通过openposs引导人物动作，表情，手部动作等。

动画插件：考虑到硬件压力，虽然不建议使用，但是如果经常玩的话还是测一下的好。

重绘：使用测试对象，对目标图的局部进行遮罩重绘。

（1.1版本取消本项测试）

流程图

通用测试流程规范

测试中使用的大模型

文档链接：https://zhuanlan.zhihu.com/p/650514108

测试中使用的lora模型

文档链接：https://zhuanlan.zhihu.com/p/650514470

测试中会使用的固定tag配方

文档链接：https://zhuanlan.zhihu.com/p/650514589

标签：科技 lora 工作流 ai绘画 Stable diffusion