Stable Diffusion AIGC 视觉设计实战教程之 04-文生图
AI 摘要
文生图基础参数
基本步骤概述
文生图是通过自然语言描述即提示词,来生成对应图像的技术,Stable Diffusion 作为这一领域的先进模型、其生成图像的过程涉及多个核心参数和步骤。
在 Stable Diffusion 中进行文生图的基本步骤:
- 选择检查点模型:Stable Diffusion 提供了多个预训练的检查点(CheckPoint)模型,每个检查点都具有不同的性能和特点。
- 输入提示词:提示词是用户输入的文本描述,它定义了图像的主题、内容及风格,有效的提示词需要简洁、明确,并符合模型训练时的语境。
- 选择采样方法:采样方法决定了模型如何从潜在空间中生成图像,不同的采样方法会影响生成图像的细节、质量和多样性。
- 确定迭代步数:迭代步数是模型在生成图像时所需处理步骤的数量,通常步数越多,生成的图像细节越丰富,但也会增加计算成本。
- 确定图片尺寸:图片尺寸定义了生成图像的分辨率,较高的分辨率会生成更精细的图像,但也会消耗更多的计算资源。
- 确定生成批次:生成批次是在一次计算中同时生成的图像数量,增加生成批次可以提高计算效率,但也会增加内存的占用。
- 调整提示词引导系数:提示词引导系数决定了提示词在生成过程中的影响程度,较大的系数会使生成的图像更贴近提示词描述的内容,但也可能导致生成的图像缺乏多样性。
- 确定随机数种子:随机数种子用于初始化生成过程的随机数生成器,使用相同的随机数种子可以确保生成结果的一致性。
- 调整其他参数。
通过对 Stable Diffusion 文生图基础参数的详细解析,可以更加深入地理解这项技术的工作原理和应用潜力,掌握这些参数的调整方法和优化策略,有助于更好地利用 Stable Diffusion 生成高质量的图像,满足各种实际应用需求。
采样方法
采样方法用于从初始的随机噪声逐步生成目标图像,其核心是基于扩散模型原理,通过迭代地去除噪声来构建出有意义的图像,整个去噪过程叫做采样,使用到的方法叫做采样方法或采样器。
就好比你要把一桶杂乱的彩色珠子(噪声)变成一幅漂亮的镶嵌画(图像),Stable Diffusion 采样方法就像是你排列珠子的窍门,指导你如何一颗颗挑选珠子,摆放在合适位置,逐渐拼凑出一幅清晰、好看图像的规则。
在 Stable Diffusion 中的采样方法非常多,不同的模型建议使用的采样方法也不一样,在实际应用场景中需要不断尝试和调整,以找到最适合自己的采样方法和最佳的参数设置。
常用的采样方法:
- DPM++ 2M Karras:速度与质量平衡,收敛快,细节稳,适合通用创作、写实 / 二次元、批量生图等场景。
- DPM++ SDE Karras:噪声控制优,光影自然,高一致性,适合商业精修、人物特写、质感渲染等场景,但生图耗时略高。
- Euler a:随机性强,风格化明显,出图快,适合概念草图、抽象艺术、快速试错等场景,但同种子结果差异大,不适合精确复刻。
- DPM++ 2M SDE Karras:结合 SDE 稳定性与 2M 效率,细节锐利,适合插画、产品渲染、高清修复、高分辨率生成等场景。
- Euler:确定性强,结果可复现,计算轻量,适合学术对比、流程测试、低算力设备等场景,但风格化弱,需靠提示词强化创意。
以生成一张草原写实图为例,参考生成参数如下。
- ckpt 检查点模型:majicMIX realistic 麦橘写实_v7
- 正向提示词(中文):写实风格,一望无际的绿色草原,微风拂过泛起层层草浪,远处散落着几头悠闲的牛羊,湛蓝的天空飘着几朵白云,阳光柔和地洒在草地,光影自然,细节丰富
- 正向提示词(英文):Photorealistic style, endless green grassland, gentle breeze blowing layers of grass waves, several cattle and sheep scattered in the distance, blue sky with white clouds, soft sunlight sprinkling on the grass, natural light and shadow, rich details
采样方法为 Euler a 的生成效果:
采样方法为 DPM++ 2M Karras 的生成效果:
采样方法为 DPM++ 2M SDE Karras 的生成效果:
迭代步数
迭代步数决定了模型生成图像时的计算次数和精细度,迭代步数越多,模型对输入文本描述的解析就越深入,生成的图像就越接近描述的内容,但同时也可能增加计算时间和资源消耗。
迭代步数设置区间:
- 低迭代步数(0~10 步):生成的图像通常较为模糊,结构不完整,但生成速度非常快。
- 中等迭代步数(10~20 步):图像开始呈现出更多的细节和清晰度,但可能仍有部分失真。
- 高迭代步数(20~40 步):生成的图像非常精细,几乎可以完全还原输入文本描述的场景和细节。
- 超高迭代步数(40 步以上):生成的图像极其精细,可以完全还原输入文本描述的场景和细节。
迭代步数设置推荐:
- 快速预览/提示词调试:20–25 步,快速验证构图与风格,不追求细节。
- 最终出图:28–32 步,兼顾质量与效率,适配大多数模型。
- 商业精修/高分辨率:35–40 步,适合 8K 或印刷级输出,细节更稳。
- 模型作者标注:优先按模型页推荐步数,兼容性与效果最佳。
迭代步数设置原则:
- 拐点效应:多数采样器在 25–30 步后细节提升 <10%,但耗时增加 50%~120%,性价比急剧下降。
- 避免极端:<20 步易出现细节缺失、结构畸变,>40 步易产生冗余纹理、边缘模糊,甚至出现伪影。
以生成一张乡村写实图为例,参考生成参数如下。
- ckpt 检查点模型:majicMIX realistic 麦橘写实_v7
- 正向提示词(中文):超写实摄影,江南乡村风光,白墙黛瓦的民居错落有致,屋前溪水潺潺,岸边垂柳依依,篱笆院里种着丝瓜藤和向日葵,田间有老农牵着水牛耕作,炊烟袅袅升起,光线柔和通透,自然景深,单反相机拍摄,8K 分辨率
- 正向提示词(英文):Ultra-realistic photography, Jiangnan rural scenery, scattered dwellings with white walls and black tiles, gurgling stream in front of the houses, weeping willows by the bank, loofah vines and sunflowers in the fenced yard, an old farmer plowing with a buffalo in the field, curling smoke rising, soft and transparent light, natural depth of field, shot with a DSLR camera, 8K resolution
- 采样方法:Euler a
迭代步数为 5 步的生成效果:
迭代步数为 30 步的生成效果:
迭代步数为 50 步的生成效果:
图片尺寸设置
图片尺寸决定了生成图像的分辨率和最终输出的大小,影响着图像的清晰度和细节展现,还直接关系到计算资源和生成时间。
图片尺寸设置区间:
- 小尺寸(256x256~512x512):生成的图像分辨率较低,细节较少,但生成速度较快。
- 中等尺寸(512x512~1024x1024):图像分辨率适中,细节适中,生成速度也相对较快。
- 大尺寸(1024x1024 以上):生成的图像分辨率高,细节丰富,但生成速度较慢。
图片尺寸设置推荐:
- 快速预览 / 提示词调试:512x512(1:1),生成速度快,适合批量验证构图与风格,不追求细节。
- 全景图(宽幅):1280x720(16:9)或 1024x768(4:3),适合壁纸、风景展示,搭配 DPM++ 2M Karras 25–30 步。
- 特写图(方形):1024x1024(1:1),SDXL 首选,细节饱满,适合海报、高清展示。
- 纵向图(竖屏):720x1280(9:16)或 768x1024(3:4),适合手机壁纸、竖幅插画,突出核心主体。
- 商业精修/高清输出:1024x1024 + 高清放大,可放大至 2048x2048,细节无损,适合印刷级需求。
图片尺寸设置原则:
- 优先原生分辨率:SD 1.5 选 512x512,SDXL 选 1024x1024,这是模型训练的基准尺寸,画面结构最稳、细节最准,避免强制拉伸导致的畸变与模糊。
- 比例适配场景:常用比例为 1:1(方形)、16:9(宽屏)、4:3(经典)、9:16(竖屏);避免 1:3/3:1 等极端比例,否则易出现主体变形、背景元素缺失。
- 算力与效率平衡:快速试错用 512x512/768x768,最终出图用 1024x1024/1280x720,超高清不直接设 2048+,用原生尺寸超清放大更稳。
- 尺寸需被 8 整除:Stable Diffusion 编码器按 8 倍下采样,宽高均为 8 的倍数可避免潜在空间计算错误,如 512、768、1024 等。
以生成一张城市写实图为例,参考生成参数如下。
- ckpt 检查点模型:majicMIX realistic 麦橘写实_v7
- 正向提示词(中文):超写实摄影,现代都市日间风光,错落有致的摩天大楼群,十字路口车流如织,街边绿树成荫,行人步履匆匆,远处地标建筑清晰可见,光线通透自然,广角镜头拍摄,景深效果明显,色彩真实细腻,8K 超高清
- 正向提示词(英文):Ultra-realistic photography, modern urban daytime scenery, scattered skyscraper clusters, endless traffic at the crossroads, green trees lining the streets, pedestrians hurrying by, distant landmark buildings clearly visible, transparent and natural light, shot with a wide-angle lens, obvious depth of field effect, realistic and delicate colors, 8K ultra-high definition
- 采样方法:DPM++ 2M Karras
- 迭代步数:25
图片尺寸为 512x512 的生成效果:
图片尺寸为 1024x768 的生成效果:
图片尺寸为 768x1024 的生成效果:
生成批次/每批数量
生成批次和每批数量是控制图像生成数量与过程的两个重要参数。
生成批次是指 Stable Diffusion 一共会生成几批次的图片,比如设置生成批次为 3,Stable Diffusion 就会分 3 次完成图片的生成任务,每次批次生成结束后,Stable Diffusion 会进行内部的计算和处理,然后开始下一批次的生成,该参数主要影响生成图片所需的总时间。
每批数量是指 Stable Diffusion 在每一批次中生成的图片张数,比如设置每批数量为 5,Stable Diffusion 就会在每一次批次中生成 5 张图片,这个参数主要影响每次点击生成按钮时,Stable Diffusion 需要处理的图片数量,每批数量过高可能会导致显存不足,从而导致生成失败。
在 LiblibAI 中,只能通过图片数量来控制生成数量。
提示词引导系数
提示词引导系数也叫提示词相关性,用于控制模型在生成图像时对输入提示词的遵循程度。
提示词引导系数设置区间:
- 低系数范围(1~3):模型生成的图像将包含更多的创造性元素和随机性,对输入提示词的遵循程度较低,容易得到较为抽象或独特的效果。
- 中系数范围(4~6):模型在生成图像时会更加平衡输入提示词,创造性与遵循程度并存,既符合用户的预期,又具有一定的创造性和多样性。
- 高系数范围(7~10):模型几乎完全遵循输入提示词来生成图像,几乎不引入创造性变化。
- 超高系数范围(10 以上):图像可能会因为太过于强调提示词而变得奇怪,难以识别。
提示词引导系数设置推荐:
- 通用写实场景:推荐 6–9,兼顾提示词还原度与画面自然度。
- 商业精修、指定元素:推荐 9–12,确保模型严格执行提示词描述,避免遗漏核心元素。
- 艺术化创作、概念草图:推荐 4–6,给模型更多创作自由度,画面更灵动。
以生成一张街道写实图为例,参考生成参数如下。
- ckpt 检查点模型:majicMIX realistic 麦橘写实_v7
- 正向提示词(中文):超写实摄影,充满烟火气的老街,青石板路面泛着微光,两旁是复古的骑楼商铺,门口摆着绿植与藤椅,午后阳光斜照形成斑驳树影,自行车停靠在路边,远处有老人下棋聊天,色彩真实自然,景深效果,8K 超高清
- 正向提示词(英文):Ultra-realistic photography, a nostalgic old street with glistening bluestone pavement, flanked by retro arcade shops, green plants and rattan chairs placed at the door, afternoon sunlight slanting to form dappled tree shadows, bicycles parked by the road, elderly people playing chess and chatting in the distance, realistic and natural colors, depth of field effect, 8K ultra-high definition
- 采样方法:DPM++ 2M Karras
- 迭代步数:25
- 图片尺寸:768x1024
提示词引导系数为 5 的生成效果:
提示词引导系数为 9 的生成效果:
随机数种子
随机数种子是生成图像时用于初始化随机数生成器的一个数值,决定了生成图像的初始条件, 相同种子数配合同样的提示词、参数,能生成近乎一样的图像 ,这方便用户复现特定图像,若种子不同,即便提示词等参数相同,生成的图像也会有差异,为创作带来多样选择。
随机数种子默认值为 -1 即随机,即使其他所有参数都是固定不变的,但每次生成后,得到的图像依然具有很强的随机性。
每一次生成完图像后,在图像下方的信息中有一行标签为 seed 的数据,这就是图像独立的随机数种子,在保持随机数种子不变的情况下,微调其他参数,会得到一个近似的效果。
随机数种子核心作用:
- 生成满意的图片后,复制其种子并固定,仅微调单一参数,可在保留核心构图、风格的前提下优化细节。
- 以优质种子为基础,调整生成数量,可生成同构图、同风格但细节略有差异的图片,快速筛选最优版本。
- 固定种子后修改提示词或参数,可精准判断变化是否由提示词或参数导致,而非随机性。
随机数种子注意事项:
- 种子的唯一性依赖于所有生成参数的完全匹配,若仅固定种子,但修改了生图参数(如检查点模型、采样方法、迭代步数、提示词相关性等),可能无法复现原图。
- 不同 GPU/CPU 因架构、计算精度及驱动、底层库差异,可能导致相同种子 + 相同参数下,生成图像出现主体不同、细节偏差甚至异,跨设备复现时建议统一驱动与底层库版本,优先在同一设备生成以确保一致性。
以生成一张人物写实图为例,参考生成参数如下。
- ckpt 检查点模型:追梦女孩 Dream Girl
- 正向提示词(中文):超写实人像摄影,18 岁少女身着绀色 JK 制服,白色衬衫搭配百褶裙,站在天桥栏杆旁,侧身眺望繁华都市夜景,远处高楼霓虹闪烁,桥下车流形成暖黄色光轨,晚风轻拂发丝,路灯柔和的光晕洒落肩头,背景虚化突出人物,单反长焦镜头拍摄,8K 超高清
- 正向提示词(英文):1girl, Ultra-realistic portrait photography, an 18-year-old girl in a dark blue JK uniform with a white shirt and pleated skirt, standing beside the overpass railing, looking sideways at the bustling urban night view, neon lights twinkling on distant high-rises, warm yellow light trails formed by traffic under the bridge, night breeze gently blowing her hair, soft halo of street lamps falling on her shoulders, blurred background to highlight the figure, shot with a DSLR telephoto lens, 8K ultra-high definition
- 采样方法:Euler a
- 迭代步数:25
- 图片尺寸:768x1024
- 提示词引导系数:8
生成效果:
调整生成参数如下。
- 随机数种子:20716137
- 图片数量:4
生成效果:
差异随机种子
差异随机种子是在基础随机种子生成的图像基础上,指定一个参考种子,让新图像既保留基础随机种子的核心特征,又融入差异随机种子的随机细节,实现同源变异,核心解决想改细节又不想重画主体的痛点,高效生成相似但不同的变体,提升创作效率与多样性。
变异强度决定了基础随机种子和差异随机种子之间的权重,取值范围为 0~1,值为 0 时图像更接近基础随机种子的图像,值为 1 时图像更接近差异随机种子的图像。
差异随机种子的核心作用:
- 对某张生成图满意,但想微调细节,如发型、光影、背景等。
- 批量生成风格统一但细节不同的系列图。
- 融合两个不同种子生成的图像特征。
LiblibAI 已反馈差异随机种子功能设置不生效,后续可以使用其他功能进行图像微调,本地部署的 Stable Diffusion 可以正常使用。
文生图综合体验
生成梦幻机器人图片
提示词参考:超现实梦幻摄影,精致的人形机器人,金属外壳泛着珍珠般的柔光,眼眸是闪烁的淡紫色光点,背后展开透明的羽翼状机械结构,悬浮在开满荧光花朵的空中草原,远处是渐变粉蓝的晚霞,细碎的星光粒子在周身漂浮,镜头带有轻微的光晕效果,色彩梦幻柔和,8K 超高清。
通过调整 ckpt 检查点模型、采样方法、迭代步数、提示词引导系数、随机数种子等参数,根据自己的创作需求和期望的效果来生成满意的图像,在此过程中要不断尝试和调整,结合个人的创意和审美,才能创作出惊艳的作品。
文章中可能会存在些许错别字内容描述不完整、表述不准确、排版布局异常等问题,文章中提及的软件、依赖、框架等程序可能随其版本更新迭代而产生变化,文章中的相关代码片段、例图、文本等内容仅供参考。
如若转载,请注明出处:https://www.duox.dev/post/129.html