AI 摘要

本文系统梳理 Stable Diffusion 图生图全流程:先解析扩散模型把噪声还原为图像的底层机制;再详解上传底图后,如何借“缩放模式、重绘幅度”等参数控制构图与变化程度;演示真人、卡通风格迁移;对比涂鸦、局部重绘、涂鸦重绘、上传蒙版四种精修方式,说明蒙版边缘模糊度、模式、内容填充与重绘区域对融合自然度的影响,助用户精准实现换装、换背景、瑕疵修复及创意合成。

图生图生成逻辑

图生图生成逻辑概述

Stable Diffusion 图生图技术的底层逻辑主要基于深度学习,特别是生成对抗网络(GAN)和扩散模型(Diffusion Model)的结合,其核心思想是通过训练大量的数据来让模型学习如何从随机噪点生成具有特定风格和内容的图像。

在 Stable Diffusion 中,生成过程分为前向扩散过程和负向生成过程两个阶段,前向扩散过程将真实图像逐渐转化为随机噪点,而负向生成过程则从这个随机噪点出发,逐步学习并还原出与真实图像相似的结果。

在生成过程中,模型会学习如何捕捉图像中的统计规律,如颜色分布、纹理特征及结构信息等,这些统计规律被用来指导模型在生成过程中的决策,从而生成出具有相似风格的图像。

图生图基础参数

基本参数概述

图生图面板相比于文生图面板,多了上传图像的窗口,可以通过上传和选择已有图像作为生成基础,然后调整各种参数来生成全新的图像。

缩放模式

当我们上传的图像尺寸和设置生成的图像尺寸有所偏差时,Stable Diffusion 会依据所选择的缩放模式来对图像进行相应的调整,以使其适配目标尺寸,但不同的模式可能会对最终图像的效果产生不同程度的影响。

Stable Diffusion 图生图支持的缩放模式:

  • 拉伸:直接按照设定的新尺寸对图像进行拉伸或压缩,可能会导致图像比例失调、内容变形。比如将一张 512×768 的图像宽度不变,高度改成 960 像素,使用拉伸模式,图像中的人物或物体可能会被拉长。
  • 裁剪:从原图中选取中间部分,按照新尺寸进行裁剪,原图超出新尺寸的部分会被舍弃。比如将 512×768 的图像生成 512×512 的图时,会裁掉原图上下部分的画面。
  • 填充:系统会根据原图边缘内容填充新尺寸中无内容的区域,如果新尺寸大于原图尺寸,在空白处会根据图像边缘的特征和规律生成新的内容来填充。比如将一张人物图像的高度从 680 像素增加到 960 像素,软件可能会自动在人物上方增加一些背景等内容把空白处填满。

下图原始尺寸为 768x1024。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):增强现实摄影,超细节,一女,单人,微笑,真实皮肤纹理,闭嘴,漂亮的脸蛋,圣诞毛衣,圣诞帽,圣诞裙,圣诞树,焦外效果,富士相机
  • 正向提示词(英文):Augmentedrealityphotography,superdetails,1girl,solo,smile,realskintexture,closedmouth,beautifulface,(((Christmassweater,Santa'sHat,Christmasskirt,Christmastree))),bokeh,FujiCamera
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:1024x1024(从 768x1024 缩放到 1024x1024)
  • 缩放模式:填充

生成效果:

调整生成参数如下。

  • 图片尺寸:512x512(从 768x1024 缩放到 512x512)
  • 缩放模式:裁剪

生成效果:

重绘幅度

重绘幅度用于控制生成图像与原图的相似程度,其取值通常在 0~1,数值越大,生成图像与原图的差异越大,数值越小,越接近原图。

不同重绘幅度的不同效果:

  • 轻微变化(0~0.3):生成的图像将在保留原始图像大部分特征的基础上进行细微调整和修饰,色彩可能变得更加鲜艳或柔和,细节部分可能会有所增强或模糊,但整体构图和主体元素通常保持不变。
  • 显著变化(0.3~0.7):生成图像的变化更加明显,除了色彩和细节的显著调整外,还可能引入新的元素或改变原始图像的构图。
  • 完全创新(0.7~1.0):生成的图像可能与原始图像几乎完全不同,只保留了极少数的特征或灵感来源。

下图原始尺寸为 512x768。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):一个女孩,戴着白帽子,穿着白毛衣和蓝色长裙,面对着相机,双手插兜,白色背景
  • 正向提示词(英文):a girl wearing a white hat,a white sweater,and a blue long dress,facing the camera,hands in pockets,with a white background
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:1536x2048(从 768x1024 缩放到 1536x2048)
  • 缩放模式:填充
  • 重绘幅度:0.65

生成效果:

调整生成参数如下。

  • 重绘幅度:0.9

生成效果:

真人转卡通风格

下图原始尺寸为 768x1024。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:TinFlux1_3D_可爱 Q 版人像
  • 正向提示词(中文):最佳质量,杰作,动漫风格,一名女性,长发飘逸,黑发,蓝眼睛,白色连衣裙,自信的姿态,逼真,柔软的嘴唇,头部倾斜,樱花树,粉色花瓣飘落,幻想
  • 正向提示词(英文):((best quality)),((masterpiece)),(anime),1woman,long flowing black hair,blue eyes,white dress,confident stance,photorealistic,soft lips,head tilted,sakura trees,pink petals floating,fantasy
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:768x1024
  • 缩放模式:填充
  • 重绘幅度:0.75

生成效果:

卡通转真人风格

下图原始尺寸为 768x1024。

  • ckpt 检查点模型:麦橘超然 majicFlus
  • 正向提示词(中文):最佳品质,杰作,一名女性,黑色长发,蓝色眼睛,白色连衣裙,自信的姿态,逼真,柔软的嘴唇,头部倾斜,樱花树,粉色花瓣飘落,幻想
  • 正向提示词(英文):((best quality)),((masterpiece)),1woman,long flowing black hair,blue eyes,white dress,confident stance,photorealistic,soft lips,head tilted,sakura trees,pink petals floating,fantasy
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:768x1024
  • 缩放模式:填充
  • 重绘幅度:0.75

生成效果:

涂鸦

涂鸦概述

涂鸦也叫绘图,是一种轻量级的图像标记工具,可以让用户在图片上进行随意涂鸦,然后以涂鸦后的图像作为新的参考图像来生成图像。

涂鸦的应用场景:

  • 快速创意构思:当创作者脑海中有模糊的创意雏形时,可通过涂鸦快速勾勒出大致形状和轮廓,比如想创作一幅奇幻森林的场景,先涂鸦出弯曲的树干、奇特的蘑菇等形状,为后续的细节完善提供基础框架,激发更多创作灵感。
  • 添加或修改元素:在已有的图像中,通过涂鸦可以快速添加或修改一些元素,比如在人物图像上涂鸦出眼镜、帽子等配饰,或者在风景图像中添加一些飞鸟、云朵等元素。
  • 颜色和风格引导:利用不同颜色的画笔进行涂鸦,可以为 AI 生成提供颜色引导,比如用红色画笔在人物衣服区域涂鸦,然后结合提示词,AI 会生成红色衣服的效果。
  • 辅助局部重绘:作为局部重绘的前期准备,先通过涂鸦大致标记出需要重绘的区域,然后再切换到局部重绘模式,进行更精确的设置和生成。
  • 图像修复和优化:对于图像中的一些小瑕疵或不完美的地方,可以用涂鸦的方式简单标记出来,然后借助 AI 的能力进行修复和优化,比如涂鸦出照片中人物脸上的小斑点,让 AI 进行修复处理,使人物皮肤更加光滑。

涂鸦画笔

在 Stable Diffusion 图生图中,可以选择涂鸦选项卡,上传图像后,使用画笔工具涂抹需修改的区域,并编写提示词、调整相关参数,即可进行生图。

以一张白色底图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):森林,河流,高分辨率,逼真
  • 正向提示词(英文):forest,river,highres,realistic,top view
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:1024x768
  • 缩放模式:填充
  • 重绘幅度:1

涂鸦区域:

生成效果:

局部重绘

局部重绘概述

局部重绘是图生图的一项强大功能,允许用户精确修改图像中的特定部分,使得生成的图像更符合用户的期望和创意,其结合蒙版工具、参数调整和外部辅助软件,可灵活实现精准修改与无限创意。

局部重绘的应用场景:

  • 图像修复与瑕疵去除:可消除照片中的划痕、污渍、水印,以及去除多余人物或物体,让图像恢复完美状态,比如修复老照片的折痕或去除现代照片里的路人。
  • 物体替换与修改:轻松实现物体的替换,比如将汽车换为自行车,或修改物体的颜色、形状、材质等细节,比如把木质桌子变成金属质感的。
  • 人物处理:对人物的面部表情、姿势、发型、服饰等进行调整,还能增减人物身上的配饰,比如将人物的微笑改为严肃表情,或给人物换一套服装。
  • 背景更换与优化:改变图像背景,营造不同氛围和场景,比如将室内背景换成户外风景,或把白天背景变为夜晚星空。
  • 创意合成与艺术创作:融合不同元素,创造奇幻、超现实场景,比如将动物与机械元素结合,或把人物置于梦幻的童话世界中,实现独特的艺术创意。
  • 产品设计与展示:在产品图片上修改外观、添加功能或展示不同款式,比如改变电子产品的颜色、设计样式,帮助更好地展示产品特性。

局部重绘与涂鸦的区别:

  • 操作方式不同:局部重绘需用工具精确标记重绘区域或上传蒙版,而涂鸦则自由手绘线条、形状,操作更随意。
  • 生成逻辑不同:局部重绘依赖提示词和参数直接生成新内容,覆盖原区域,而涂鸦本身不触发内容生成,常用于引导,需配合其他功能。
  • 应用场景不同:局部重绘用于精准修改,如换物体、修瑕疵、改背景等,而涂鸦适合快速表达创意、初步构思或标记。
  • 效果呈现不同:局部重绘生成内容质量高、细节丰富,与原图融合好,而涂鸦效果较粗糙,侧重捕捉灵感,需要优化。

局部重绘画笔

在 Stable Diffusion 图生图中,可以选择局部重绘选项卡,上传图像后,使用画笔工具涂抹需修改的区域,并编写提示词、调整相关参数,即可进行生图。

下图原始尺寸为 712x952。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):粉色连衣裙,连衣裙上面有花朵图案
  • 正向提示词(英文):Pink dress,a dress with flower patterns
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:712x952
  • 缩放模式:填充
  • 重绘幅度:0.95

局部重绘区域:

生成效果:

蒙版边缘模糊度

蒙版边缘模糊度是控制重绘区域与原图过渡自然度的关键参数,其通过高斯模糊算法对标记区域的边缘进行羽化处理,形成渐变过渡带(取值范围为 0~64),避免重绘区域与原图直接拼接产生的生硬边界,提升融合效果。

蒙版边缘模糊度越大,蒙版区域和原图区域的过渡越自然,蒙版模糊为 0 时,蒙版边缘非常锐利,一般情况下蒙版模糊保持默认即可。

蒙版模式

蒙版模式是决定重绘范围的核心参数,通过选择不同的模式,可精确控制重绘修改的区域。

蒙版模式的类型:

  • 重绘蒙版内容:仅修改涂抹的区域,保留其他区域,常用于换脸、替换物体、修复局部缺陷等场景。
  • 重绘非蒙版内容:修改未被涂抹的区域,保留其他区域,常用语更换背景、扩展画布、调整构图等场景。

下图原始尺寸为 712x952。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):海边
  • 正向提示词(英文):over the sea
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:712x952
  • 缩放模式:填充
  • 重绘幅度:0.95
  • 蒙版模式:重绘非蒙版内容

局部重绘区域:

生成效果:

蒙版蒙住的内容

蒙版蒙住的内容参数决定了蒙版区域内容的处理方式。

蒙版蒙住的内容的类型:

  • 原版:保留蒙版内原图内容作为重绘底图,AI 优先贴合原图元素创作,适合局部微调、细节优化(如修瑕疵、改小物件)等场景。
  • 填充:用蒙版边缘像素模糊填充作为底图,保留周边色彩与光影关联,适合小幅修改且需自然融合(如换背景、修边缘)等场景。
  • 浅空间噪声:以随机潜变量噪声为底图,AI 完全自由创作,适合大幅重绘、彻底替换元素(如换主体、改风格)等场景。
  • 空白浅空间:以潜变量值为 0 的状态为底图,噪声更规整,比填充更自由适合需要清空原图信息且风格统一的重绘的场景。

重绘区域

重绘区域决定了哪些部分的图像将被重绘。

重绘区域的类型:

  • 全图:参考底图生成一张新的完整图像,然后将蒙版区域和原图进行融合。
  • 仅蒙版:不参考底图,仅对蒙版区域内的图像进行重绘,蒙版区域外的内容保持不变,只会生成蒙版区域的部分。

涂鸦重绘

涂鸦重绘概述

涂鸦重绘也叫手涂蒙版,是一种通过手绘标记直接引导 AI 生成新内容的创意模式,用户可通过简单的线条或形状快速修改图像,结合提示词实现精准控制,涂鸦重绘更像是涂鸦和局部重绘的结合体。

涂鸦重绘的应用场景:

  • 创意艺术创作:通过简单涂鸦勾勒轮廓或添加元素,比如随意涂鸦几笔线条,经 AI 转化成独特的艺术图案或奇幻生物,助力实现新奇的艺术构思。
  • 图像元素添加与修改:在现有图像上快速添加新元素,比如在人物图像中涂鸦出眼镜、帽子等配饰。
  • 颜色快速指定与风格调整:用不同颜色画笔涂鸦来指定区域颜色和风格,AI 据此生成相应色彩效果,比如涂鸦红色让衣服变为红色。
  • 快速概念设计:在游戏、动画等概念设计初期,快速涂鸦出角色、场景的大致形态,AI 完善细节,提高设计效率。

涂鸦重绘与局部重绘的区别:

  • 操作方式不同:涂鸦重绘可使用带颜色的画笔涂抹来标记重绘区域,而局部重绘一般用黑色画笔标记,通常无颜色引导。
  • 生成逻辑不同:涂鸦重绘时可依据画笔颜色及提示词生成内容,而局部重绘主要按提示词和参数生成,更注重细节和风格的精确控制。
  • 应用场景不同:涂鸦重绘适用于为图像快速添加有颜色的元素、进行风格化改造等,而局部重绘用于精准修复瑕疵、替换物体、调整姿势表情等。
  • 效果呈现不同:涂鸦重绘因颜色引导更具创意性,可能与预期偏差较大,而局部重绘结果更可控,能精准实现预期效果。

涂鸦重绘画笔

在 Stable Diffusion 图生图中,可以选择局部重绘选项卡,上传图像后,使用画笔工具涂抹需修改的区域,并编写提示词、调整相关参数,即可进行生图。

下图原始尺寸为 712x952。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):戴着口罩
  • 正向提示词(英文):wearing a mask
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:712x952
  • 缩放模式:填充
  • 重绘幅度:1
  • 蒙版模式:重绘蒙版内容

涂鸦重绘区域:

生成效果:

蒙版透明度

涂鸦重绘相比于局部重绘,多了一个蒙版透明度的参数,蒙版透明度决定了蒙版对于下层图片的掩盖程度。

蒙版透明度取值范围为 0~100,默认值为 0,表示蒙版内容会完全盖住底图,蒙版透明度为 100 时,等于没有蒙版效果。

重绘蒙版

重绘蒙版概述

重绘蒙版是图生图的一项强大功能,允许用户精确控制图像的生成和编辑过程,通过上传重绘蒙版,可以精准指定哪些区域应该保留原始图像的特征,哪些区域应该接受新生成的图像内容。

重绘蒙版的应用场景:

  • 人物处理:可以实现人物换装、换发型、添加配饰等,比如将模特的衬衫换成连衣裙等。
  • 背景替换:在人像摄影或场景设计中,能轻松把室内背景换成户外风景,或把白天的背景换成夜晚的星空,营造不同的氛围和场景效果。
  • 产品设计:用于产品外观的修改和创新,为产品添加不同的包装设计,展示多种产品形象。
  • 图像修复:去除图像中的瑕疵、水印、多余的物体等,比如修复老照片上的划痕、污渍,使图像恢复清晰和完整。
  • 创意合成:将不同元素融合在一个画面中,创造出奇幻、超现实的场景,比如把动物的身体与机械零件组合,打造机械生物的形象。

重绘蒙版与涂鸦重绘的区别:

  • 操作流程不同:上传蒙版需先在外部软件精心制作蒙版,再导入 Stable Diffusion,而涂鸦重绘可以直接在软件内用画笔涂抹标记重绘区域,更为便捷。
  • 精确程度:上传蒙版能利用外部专业软件工具制作高精度蒙版,边缘和细节控制佳,而涂鸦重绘精度受手绘水平限制,相对粗糙。
  • 可控性:上传蒙版前期可在外部软件细致调整参数,重绘时结果更易把控,而涂鸦重绘主要依赖软件内参数临时调节,对结果的精确控制较难。
  • 效率差异:复杂重绘任务,上传蒙版前期制作虽耗时,但一次导入可精准重绘,总体效率高,简单任务用涂鸦重绘直接操作,速度快。

上传蒙版

在 Stable Diffusion 图生图中,可以选择重绘蒙版选项卡,上传图像、上传蒙版后,编写提示词、调整相关参数,即可进行生图。

下图原始尺寸为 712x952。

使用 Photoshop 为上图创建一个蒙版图像,使用白色覆盖需要重绘的部分。

以上图为例进行图生图,参考生成参数如下。

  • ckpt 检查点模型:F.1-dev-fp8
  • 正向提示词(中文):上面印有樱花的粉色上衣,牛仔短裤
  • 正向提示词(英文):pink top with cherry blossoms on it,denim_shorts
  • 负向提示词(英文):ng_deepnegative_v1_75t,(badhandv4:1.2),EasyNegative,(worst quality:2)
  • 采样方法:Euler
  • 迭代步数:30
  • 提示词引导系数:3.5
  • 图片尺寸:712x952
  • 缩放模式:填充
  • 重绘幅度:0.95
  • 蒙版模式:重绘蒙版内容

重绘重绘区域:

生成效果: