设计改版演示 | AI工具Stable Diffuion体验设计改版优化

2023-04-23 17:36 作者:酸梅干超人的电话亭 0人读过 | 我要投稿

最近在持续学习一些和 AI 绘图有关的操作和知识，其中 Stable Diffusion （后面简称 SD）是用的比较多的绘图工具，感兴趣的同学可以自己到 B 站搜索秋叶的视频了解安装和操作，以及获取对应的下载链接。

虽然 SD 的绘图本身很强大，从 2.0 到现在每一次迭代都突飞猛劲，但本质上它是一套算法和程序，依然需要通过相关的 UI 界面来输入指令运行。

所以，有第三方团队为它开发了一套 WEBUI 操作界面，每次启动后通过浏览器对程序进行交互。虽然网上有不少魔改和优化版本，但它大致的样式如下：

虽然用爱发电很伟大，但毕竟是开发者直接拿开源框架做的界面，“又不是不能用”系列……所以存在很多体验上的问题。尤其是操作最高频的提示词输入，问题非常突出，严重影响正常的操作流程。

所以今天我就围绕提示词输出框，做一个简单的体验和交互改版。

提示词 Prompt 是 SD 中用来生成图形的指令，反提示词 Negative prompt 则是用来禁止画面出现某些特征、元素的指令，我们通过在对应输入框输入提示词来生成想要的图像。

输入过程需要应用很多词汇和词组，以及应用相应的语法，具体的我就不在这里介绍了。总之，来看看下面这个案例：

提示词 Prompt

best quality, masterpiece, (realistic:1.2), (1girl,solo:1.6), vampire, evil, waistup , vibrant, a young women, Middle Ages style, Gothic style, detailed face, detailed blue eyes, (detailed blonde hair:1.4),strict expression, detailed skin, (detailed red and blace clothes:1.5),black cloak,look at viewer, dramatic, sharp focus, Middle Ages dark environment,(((Gothic castle))),50mm,F1.2, EOS-1D X Mark III,(half body:1.2),(in the night),standing,(complex background:1.6), (heavy makeup:1.3),blood on the face,(sunset:1.2)

反提示词 Nagative Prompt

asian, (low quality, worst quality:1.4), fat,obese, thick, disfigured, weird hands, broken fingers, extra fingers, missing fingers, mutated hands, nsfw, cropped, nude,weapone,weird hands, broken fingers, extra fingers, missing fingers, mutated hands

英语稍微入门应该能看到大多数单词的意思，看不懂也不要紧，简单说起来，这就是由一堆相互之间没有太大关联的独立词汇组合而成的内容，不具备可读性。

尤其是按正常输入逻辑，往往是想到哪打到哪，先描述了人物外貌，然后描述动作、场景、光线，然后想起来外貌的头发忘记写了在后面添加上，再想起来动作的表情忘记加了再在后面添加上。

所以为了让内容逻辑性和可读性变强一点，用户可以人为进行分段，将不同描述类型放置在同一段，这样改起来会顺手一点。

但光这样还是不够，当段落多起来每次识别段落的类型还是要看一遍里面的词汇才能反应过来（尤其是保存模版和调用场景）。

再加上，使用英文逗号形式做分隔，提示词之间的隔断感很弱，尤其是在忘记添加空格模式下的多个单词并列：

1girl,comic,asian,standing,cloth,dress,solo,cute,……

紧凑导致的另一个问题，就是语法应用，使用括号和尖括号的特殊提示词，会让视觉信息表现得更混乱：

(Cinematic Photo:1.3) of (Masterpiece:1.3) (Full body:1.4), the most beautiful artwork in the world, slow motion walking pose, ethereal, (cold colors:1.1), digital painting, artstation, concept art, matte, sharp focus, illustration, <lora:darkKnightFashion_v10:0.6>, ((bloom)), (volumetric blue dark blue smoke:0.7), volumetric lighting,Highly Detailed,(High Contrast:1.3)

除此之外，在我们输入提示词的过程中，会有类似编程工具的词汇的提示弹窗，但这个提示弹窗难受的地方在于，它不是完全根据输入内容关联性排序的，而是根据后面数量大小排序的。这种根据数量排序的方式等于是给用户建议而不是简单的提示，这并不符合实际的应用场景。