AI 摘要

本文系统梳理 Stable Diffusion 从 2022 年开源到 2024 年 3.5 版的技术演进,剖析其高质量、灵活、可控的核心优势及对设计行业的颠覆性影响;随后对比官方、秋叶、爱兔三种本地部署方案与 AutoDL、阿里云、腾讯云等云端方案,详解硬件成本、散热、电源等注意事项;最后结合 WebUI 界面功能、模型类型、提示词与参数逻辑,示范“勇士”案例,帮助零基础上手快速出图。

Stable Diffusion 概述

Stable Diffusion 简介

Stable Diffusion 是一种前沿的图像生成技术,由 Stability AI、CompVis 和 Runway 等团队合作开发,其核心技术基于 Latent Diffusion 模型,该模型由慕尼黑大学的机器学习研究小组 CompVis 和纽约的 Runway 团队共同研发。

Stable Diffusion 的发展史:

  • 2022 年 7 月底:经过训练的 Stable Diffusion 模型首次亮相,相较于 Latent Diffusion,它采用了更多数据训练,图像尺寸更大,并使用了更好的 CLIP 编码器,使得生成模型更加准确。
  • 2022 年 8 月 22 日:Stable Diffusion 正式开源,迅速吸引了大量开发者和用户,帮助 Stability AI 获得了 1 亿美元融资,估值约 10 亿美元。
  • 2022 年 11 月:Stable Diffusion 推出 SD 2.0 版本,新算法更高效,图像生成质量显著提升,默认支持 512x512 和 768x768 像素分辨率的图像,还包含了 Upscaler Diffusion 和 depth2img 深度图像扩散模型。
  • 2023 年 5 月:Stable Diffusion 已经可以生成视频。
  • 2023 年 6 月:Stable Diffusion 推出 SDXL 0.9 版本更新,升级了 Stable Diffusion 文本生成图片模型,凭借该模型,Stable Diffusion 可以创建深度更广、分辨率更高的逼真图像。
  • 2024 年:发布了 SD 3.5 版本,包含 Large、Large Turbo 和即将推出的 Medium 版本,以满足不同用户需求。

Stable Diffusion 特点

Stable Diffusion 的核心特点:

  • 高质量生成:Stable Diffusion 能够生成非常逼真和高质量的图像,无论是自然风景、人像还是抽象艺术,都能得到令人惊艳的结果。
  • 灵活性:该技术支持多种类型的图像生成,包括无条件生成、条件生成和文本到图像的生成等,用户可以通过调整输入参数和参考图像来定制生成的图像风格和内容。
  • 可控性:Stable Diffusion 提供了丰富的参数设置,用户可以精确控制生成图像的分辨率、风格、色彩等方面,实现个性化的创作需求。

Stable Diffusion 作为一款意义重大的图像生成技术,以其高效、易用以及开源的独特优势,在图像生成领域发挥了多方面的重要影响力,一方面有力地推动了该领域的技术创新与发展,让更多人得以参与到图像生成技术的研究和应用中来,另一方面打破了长期以来设计行业的高门槛限制,使任何人都有机会创造出高质量的设计作品,进而在设计行业掀起一场深刻的变革,对传统设计流程和商业模式均产生了深远影响。

此外 Stable Diffusion 的开源特性更是充分激发了互联网社区的创新活力,吸引了大量开发者和用户投身于项目的改进与优化工作,由此形成强大的迭代效应,催生出众多新技术和新应用。

本地部署 Stable Diffusion

本地部署概述

本地部署 Stable Diffusion,可以借助官方提供的资源包进行部署,也可以借助第三方整合包和启动器进行快速部署。

官方部署提供了更多的灵活性和自定义选项,而第三方整合包和启动器部署工具则简化了部署的过程,在选择本地部署方式时,需要根据个人需求和技能水平做出合适的选择。

在选择本地部署时,还应该注意:

  • 综合考虑本地部署所需的硬件成本,如更换电脑、更换显卡、增加内存、增加硬盘等,评估自身的经济情况和使用需求,避免盲目投入过高成本进行本地部署。
  • 由于运行大模型时显卡、CPU 等硬件会长时间处于高负载工作状态,会产生大量热量,所以要确保电脑的散热系统良好。
  • 要保证电源功率能够满足硬件在高负载运行下的需求,尤其是配置了高端显卡等耗能较大的硬件组件时,电源功率不足可能引发电脑频繁重启等不稳定情况,进而干扰模型的正常部署与运行。

通过官方搭建部署

Stable Diffusion 最早开源出来的是一大堆源代码,而最具代表性的是 AUTOMATIC1111 大神将这些源代码做成了一个基于浏览器网页运行的程序,可以非常直观的调整、输入参数和拓展插件。

Stable Diffusion:https://github.com/Stability-AI/stablediffusion

Stable Diffusion WebUI:https://github.com/AUTOMATIC1111/stable-diffusion-webui

Stable Diffusion WebUI 需要依赖 Python 环境才能运行,因此通过官方搭建部署 Stable Diffusion WebUI 之前,需要安装并配置好 Python 环境。

通过官方搭建部署 Stable Diffusion,可以得到最纯正的 Stable Diffusion WebUI 程序,可以按需安装插件,一步步了解 Stable Diffusion 的部署和插件安装过程,对于每个部件和后续出现问题更容易找到根源和处理方法,但是部署过程相对麻烦,并且模型和插件要一个个下载安装,过程中可能会遇到许多挑战。

通过秋叶启动器部署

秋叶启动器又称汇世启动器,是一个集成了多种 AI 图像生成工具的启动器,它不仅简化了 Stable Diffusion 的部署流程,还提供了友好的图形界面和一键式操作。

秋叶启动器:https://space.bilibili.com/12566101

相较于官方的本地部署,秋叶启动器为用户提供了更加简洁、友好的用户体验,特别是对于新手,无需掌握技术细节,就能轻松部署 Stable Diffusion,但秋叶启动器目前仅支持在 Windows 操作系统下使用。

通过爱兔启动器部署

爱兔启动器是针对 Stable Diffusion WebUI 的客户端,通过下载整合包,可以一键部署安装并一键启动,它完美支持 Windows、macOS,并且提供了丰富的模型、插件,随时更新,方便管理,也有针对新手和专家设置的 Dreambooth、 LoRA 模型训练。

爱兔启动器:https://www.easyartx.com/landing/

云端部署 Stable Diffusion

云端部署概述

云端部署为 Stable Diffusion 提供了灵活、高效且低成本的解决方案,通过云端部署,用户无需购置昂贵的硬件设备,即可享受强大的计算资源,从而快速完成模型的训练和推理,同时云端部署还能提供弹性扩展功能,根据需求动态调整计算资源,满足各种规模的应用场景。

目前市场上存在众多云端部署平台,如 AutoDL、阿里云、腾讯云等,用户可以根据自己的需求和偏好选择合适的平台,轻松实现模型的云端部署。

通过 AutoDL 部署

AutoDL 是一个智能化的云端部署平台,专为深度学习模型设计,它简化了 Stable Diffusion 等复杂模型等部署过程,提供了自动化的资源分配、模型训练与部署功能,用户只需上传模型与数据,即可轻松实现云端部署,享受强大的计算资源,非常高效便捷。

AutoDL:https://www.autodl.com/

通过阿里云部署

阿里云提供了稳定、高效的云计算平台,使得 Stable Diffusion 能够得以顺利部署和运行,通过阿里云提供的函数计算 FC 等产品,用户可以轻松地创建和管理实例,配置适当的资源,以满足 Stable Diffusion 的运行要求。

通过腾讯云部署

腾讯云提供了强大的计算能力和丰富的资源,能够满足 Stable Diffusion 大规模计算的需求,有效地支持 Stable Diffusion 的训练和部署提高其运行效率和性能。

Stable Diffusion WebUI

认识 WebUI 页面

Stable Diffusion WebUI 提供了一个直观且功能丰富的界面,让用户能够轻松地进行图像生成和编辑。

Stable Diffusion WebUI 支持多种模型:

  • 检查点模型:图像生成的基础,它决定了生成图像的基本风格和特点。
  • Embeddings 模型:负责处理图像的整体氛围和细节表现。
  • Hypernetworks 模型:通过控制模型的高级特征来实现风格转换等效果。
  • Lora 模型:是一种轻量级的模型,用于微调图像的细节部分。

使用第三方启动器部署的 Stable Diffusion WebUI,内置一个 anything-v5-PrtRE 的检查点模型。

提示词面板是 Stable Diffusion WebUI 中的重要组成部分:

  • 正向提示词用于描述用户希望图像中展现的内容,如“美丽的风景”、“宏伟的城堡”等。
  • 反向提示词则用于排除不希望出现的元素,如人物、文字等,通过合理运用提示词面板,用户可以更加精确地控制图像的生成效果。

生成参数是影响最终图像效果的关键因素:

  • 采样方法:决定了生成图像的随机性和多样性,不同的采样方法会生成不同风格的图像。
  • 迭代步数:影响生成速度和图像质量,步数越多生成的图像质量越高但生成速度越慢。
  • 宽度和高度:用于设定输出图像的分辨率大小。
  • 生成批次:允许用户一次性生成多张图像以提高效率。
  • 提示词引导系数:用于调整文字描述对生成图像的影响程度,系数越高生成的图像越符合文字描述。
  • 随机种子:则用于确保每次生成的图像具有唯一性避免重复。

图像预览面板是一个不可或缺的功能,它为用户提供了实时的图像生成反馈,使得创作者能够直观地看到并调整生成过程中的图像变化,图像预览面板还允许用户同时展示多张生成的图像,这样创作者可以比较不同参数或提示词下的效果,从而找到最优的生成方案。

图生图面板是 Stable Diffusion WebUI 中的一大特色功能,它允许用户基于已有的图像进行二次创作,用户可以通过上传和选择已有图像作为生成基础,然后调整各种参数来生成全新的图像。

Stable Diffusion WebUI 的附加功能中,可以通过特定的标签和算法实现图像的放大,同时保持图像的高清质量,这些功能允许用户调整放大倍数和算法,以在增加图像尺寸的同时,尽可能保留原始图像的细节和清晰度。

Stable Diffusion WebUI 的图片信息功能允许用户查看和编辑图像的元数据信息,如分辨率、颜色模式等。

模型合并与训练是提升 Stable Diffusion WebUI 图像生成质量的重要途径,通过合并多个模型的优势,Stable Diffusion WebUI 可以创造出更加独特和丰富的生成效果,通过模型训练,用户可以提升模型的性能和适应性,使模型更好地满足用户的生成需求。

Tag 反推功能可以帮助用户分析上传的图片并提取出其背后的提示词及关键词权重,助力用户理解图片元素和风格,为二次创作提供参考。

设置页面提供了对 Stable Diffusion WebUI 的全方位控制,用户可以在这里调整界面主题、布局、字体大小等外观设置,以满足个性化的视觉需求,此外设置页面还提供了对模型选择、训练参数、生成设置等核心功能的配置选项,为用户提供了强大的定制能力。

扩展页面是 Stable Diffusion WebUI 中的一个重要组成部分,它允许用户安装和管理各种插件,以扩展 Stable Diffusion 的功能,这些插件可以是开发工具、性能优化工具、用户界面增强工具等,可以极大地丰富 Stable Diffusion 的使用体验。

Stable Diffusion 初体验

快速生成一张图片

在 Stable Diffusion WebUI 中简单输入提示词,即可快速生成一张图片。

比如要生成一张勇士的图片,关键词可以是“一个英勇的战士、穿着盔甲、手持宝剑、站在沙漠中”,翻译为英文关键词是“A brave warrior, wearing armor, holding a sword, standing in the desert”。