简介
Stable Diffusion是由Stability AI开发的开源文生图模型,能够通过文本描述生成高质量图像。其基于潜在扩散模型(Latent Diffusion Model),将图像生成过程转化为逐步去噪的扩散过程,支持本地部署和云端使用。最新版本Stable Diffusion 3 Medium进一步优化了图像细节、文本理解和硬件兼容性,成为AI艺术创作领域的重要工具。
特点
- 开源免费:代码、模型及训练数据均开源,用户可自由修改和商用(商业授权需额外购买)。
- 高质量生成:支持512x512至4K分辨率输出,细节处理优于同类模型,尤其在手部、面部等复杂场景表现突出。
- 多模态控制:支持文本、图像混合输入,可通过负面提示词排除不想要的元素,并集成超分辨率、图像修复等扩展功能。
- 硬件友好:优化后的版本如SD3 Medium支持消费级显卡(如RTX 3060),显存需求最低4GB。
- 灵活部署:提供网页版、本地安装包及ComfyUI等多种使用方式,满足从新手到开发者的不同需求。
如何使用
- 网页版快速体验:访问官网注册账号,输入英文提示词(如“a futuristic cityscape with neon lights”),调整风格、尺寸等参数后生成图像。
- 本地部署(推荐):下载秋葉aaaki等整合包,安装Python 3.10+和Git,运行webui-user.bat启动。首次启动会自动下载约4GB基础模型。
- 进阶控制:在WebUI中使用ControlNet插件实现姿势控制,或加载LoRA模型生成特定风格作品。
- 参数优化:建议采样步数20-30,CFG值7-12,启用Hires.fix提升分辨率至2倍。
价格
- 基础功能免费:所有开源版本均可免费使用,包括图像生成、修复等核心功能。
- 商业授权:企业用户需购买商用许可证,具体费用根据调用量阶梯计价。
- 云服务增值:官网提供付费API服务,每1000张512x512图像生成费用约$15。
使用技巧(Tips)
- 提示词结构:采用“质量词+主体+环境+风格”格式,例如“ultra detailed, a girl in kimono, cherry blossom background, ukiyo-e style”。
- 负面提示:添加“low quality, blurry, extra fingers”等排除异常元素。
- 模型管理:Civitai平台提供超10万个社区模型,建议常备RealisticVision(写实)、Counterfeit(二次元)等经典模型。
- 性能优化:N卡用户安装CUDA 11.8和xformers库,可提升30%生成速度。
常见问题
- 生成图像模糊?→ 检查是否启用Hires.fix,或尝试调整VAE模型。
- 显存不足报错?→ 降低分辨率至768x768以下,或使用--medvram启动参数。
- 中文提示无效?→ 安装双语插件Bilingual-Localization,或使用DeepL翻译英文。
- 如何更新版本?→ 在WebUI启动器选择“版本管理”,一键更新核心和扩展。
- 商业使用限制?→ 避免使用未授权的第三方模型,原创作品可申请CC0协议。
相关导航
暂无评论...