首页 > 资讯 > > > 正文
信息:【AIGC 学习】Stable Diffusion web UI - 3 文生图 prompt 入门
发布时间:2023-04-10 08:56:33   来源:九日论道  

下面的内容由提供,作者本人是出海圈为数不多的female CEO。我认识Renee的时候是在2020年5月,那个时候她是Castbox的CEO。我们一起看看她给内部员工写的AIGC领域的随笔吧。


(相关资料图)

众所周知,与机器交流的主要语言就是 prompt。如今,一个硅谷的 prompt 工程师(Prompt Engineer)年薪甚至高达百万。今天我们将简要介绍一下SD 文生图撰写 prompt 的入门知识。

要学习 prompt,首先要寻找精美的成品,观察别人是如何编写 prompt 的。之前提到过,你可以在 C站上找到这些图片,将它们的 Prompt 和 Negative prompt 复制粘贴到 Web UI 中,自己尝试运行。通过不断的实践,慢慢积累经验和感觉。

另一个很好的学习渠道是阅读 Stable Diffusion Web UI 的 wiki -

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/ 接下来,我们来简要梳理一下关于文生图 Prompt 的语法和规则。 【定义】提示词(Prompt)用于描述你想要生成的图像。你可以使用自然语言、关键词标签(tag)和表情符号(emoji)等方式表达关键词。 【支持语言】主要支持英语。如果英语不够熟练,网上有很多 tag 生成器供参考。尽管 SD 支持自然语言描述,但仍推荐使用逗号分隔的关键词标签。当然,emoji 甚至日语等也是可以使用的。 【基本原则】尽量将关键词控制在 75 个(最多 150 个)以内。 越关键的词,越往前放。 相似的同类词汇,放在一起,尽量不要放入重复的关键词。

只写必要的关键词。尽量遵循奥卡姆剃刀原则 - 如无必要 勿增实体。

【建议结构】前缀 画风词,例如:masterpiece、CG、illustration、highres、8k、wallpaper、original 效果器,例如: shadow、volume lighting、ray tracing、cinematic lighting、dramatic angle、dynamic view、professional light、soft light 主体 人物 人物细节,例如:1girl, angel face, slim body, cute, beautiful eyes, long hair, full body, claviculate 定制服装:yoga pants, shirt, sports bra 动物 物体 场景 大环境

小细节

【基础语法】1 关键词分隔:用英文逗号分隔关键词。空格和换行不影响标签分隔。例如:
1girl, angel face, slim body, cute, beautiful eyes, long hair, full body, claviculate
2 增强/减弱:关键词识别顺序为从前到后,可以增加权重,有两种方法: (A:w1): 低于1减弱,大于1加强。 例如:
1girl, angel face, (slim body:1.1), cute, (beautiful eyes:1.21), long hair, (full body:0.9), claviculate
(((A))) 或 [[A]],每层()增强1.1倍,每层[]减弱1.1倍。例如:
1girl, angel face, (slim body), cute, ((beautiful eyes)), long hair, [full body], claviculate
两个是一样的结果,但是建议使用第一种方法,因为更清晰、准确。 注意:不必为每个prompt加过多小括号提高权重。若需给大多数元素加四五个小括号以确保出现想要的东西,建议删掉一些括号,拉高CFG Scale至12或14。极端情况下,给单个prompt加过多权重可能导致自由度过小而黑图。 Wiki 网站上通过培根和煎蛋的示例展示了如何运用增强和减弱功能: 【进阶语法】首先,补充一个“步数”概念。AI绘画原理是先随机出噪声图片,逐步调整图片使其接近prompt。理解步数概念,再看分步和交替两个语法。 1 分步(Prompt editing):先按某关键词生成,然后向某方向变化。 [A:B:步数X]:大于1时,第X步前渲染A,第X步后渲染B;小于1时,总步数的X%前渲染A,之后渲染B。 [A:步数X]:大于1时,第X步后开始渲染A;小于1时,总步数的X%之后开始渲染A。

[A::步数X]:大于1时,第X步前渲染A,第X步后停止渲染A;小于1时,总步数的X%前渲染A,之后停止渲染A。

例如: 1girl, [white:yellow:20] hair, very long hair。 等价于: 开始为白发长发女孩,20步后变黄发长发女孩。 或:1girl, [white:yellow:0.5] hair, very long hair。等价于:开始为白发长发女孩,50%步后变黄发长发女孩。 官方网站提供了一个以[male:female:X]格式的示例: 2 交替(Alternating Words):在多个关键词间加|可混合使用多个要素。 [A | B]:第一步渲染A、第二步渲染B、第三步渲染A...交替进行。 [A:w1 | B:w2]:类似上述,嵌套一层加权。 [A | B | C | ...]:第一步渲染A、第二步渲染B、第三步渲染C...循环交替进行。

[A:w1 | B:w2 | C:w3 | ...]:类似上述,嵌套一层加权。

例如:1girl, [yellow | green] hair, very long hair。等价于:开始为黄色长发女孩,下一步为绿色长发女孩;循环往复。 官方网站的 Wiki 页面上还展示了一张牛和马交替渲染的动态图像: 3 组合(Composable Diffusion):在多个关键词间加 AND 可结合多个要素特征。 A:w1 AND B:w2,其中AND需大写,按w1:w2权重整合A、B特性。 例如:1girl, yellow AND green hair, very long hair。等价于:长发女孩,一半黄发一半绿发。

分布、交替和组合的区别,如都是40步生成黄绿色长发的女孩:

分布:前20步A,再加20步B,可能形成带B基底特征的A。 交替:40步为A、B交替,最终形成融合体。 组合:每步都是A、B特征,最终一半A一半B。

最后再来个猫和狗混合:

【反向提示词 Negative prompt】负面提示词可筛选掉不需要的画风、要素或错误绘画结果。

AI大致做法如下:

对图片进行去噪处理,使其看起来更像你的提示词。 对图片进行去噪处理,使其看起来更像你的反向提示词(无条件条件)。 观察两者差异,利用它产生一组对噪声图片的改变。

将最终结果移向前者而远离后者。

Web UI 的 Wiki 上还提供了一个使用负面提示词的效果展示示例图片。

最后,分享一个人物图像相对通用的负面提示词设置:

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, missing arms, long neck, humpbacked, missing limb, too many fingers, mutated, poorly drawn, out of frame, bad hands, unclear eyes, poorly drawn, cloned face, bad face
若生成人物图像,可将上述负面提示词拷贝到文本框中,降低生成图畸形概率。 以上是关于如何编写prompt的简单说明。

首尾呼应,小雨的公众号

-END -

关键词:

推荐内容

Copyright@  2015-2022 亚洲器材装备网版权所有  备案号: 豫ICP备20022870号-9   联系邮箱:553 138 779@qq.com