ConsiStory

简介

ConsiStory 是由 NVIDIA Research 联合学术界研究人员共同提出的一种无需额外训练即可实现一致主题生成的先进文本生成图像方法。这个项目主要集中在解决当前文本到图像生成模型在跨不同提示词时无法保持主体一致的问题，通过创新性的生成机制，实现不同场景下对同一主体保持连贯一致的视觉表现，适用于角色一致性、故事情节插画、品牌视觉扩展等多种应用场景。ConsiStory 的核心技术基于预训练模型内部激活共享机制，使生成过程高效又稳定。

特点

ConsiStory 最大的技术亮点是无需对模型进行任何形式的训练或微调，即可实现一致性生成。这一特性极大节省了时间和计算资源，使得在高性能平台上能够快速生成高质量图像集。同时，它引入了主体驱动的共享注意力模块和基于对应关系的特征注入机制，确保在不同提示下生成的图像主体在细节和风格上保持一致，并兼顾背景布局的多样性。

此外，ConsiStory 对于多主体场景也具备天然扩展能力，可以在一组图像中同时保持多个不同主体的一致性表现。技术上，它还可以与已有的图像控制工具（例如基于注意力控制的扩展模块）构建更灵活的工作流程。

如何使用

使用 ConsiStory 主要依赖于命令行界面或已有的 Python 脚本。通过指定主体描述、与之相关的关键词和不同的场景提示词，用户可以让系统在一次批处理生成中输出一系列具有一致身份的图像。例如，指定一个“小狗”主体和不同环境场景提示词，即可得到在沙滩、雪地、公园等背景下该“小狗”一致风格的多幅图像。

具体流程包括：在生成前准备好所需的 prompt 列表、主体标识词以及生成环境参数，然后运行 ConsiStory 提供的脚本或工具，让系统自动进行注意力共享和特征注入计算，最终输出一致主题的图像。用户也可以配置生成批次大小、随机种子、自注意力丢弃率等参数，以优化输出效果和多样性。

价格

目前 ConsiStory 本身作为研究项目由 NVIDIA Research 和合作团队发布，代码和模型实现以开源方式提供，可免费使用其研究实现版本。使用 ConsiStory 在本地运行主要成本来自计算资源，例如需要具备支持 Stable Diffusion XL 的 GPU，如 NVIDIA H100 或其他等效平台来加速图像生成。在这些硬件环境下，生成一幅一致性图像的时间可达到约 10 秒级别，约比传统的方法快约 20 倍。对于商业化部署，具体费用主要取决于所选云计算服务提供商或本地硬件成本。

常见问题

问：ConsiStory 是否需要训练数据？

答：ConsiStory 不需要为每个主题单独训练数据。它利用预训练模型内部的激活机制，在生成时动态实现一致性，无需优化步骤，因此避免了个性化训练带来的高昂成本。

问：它能处理多个不同的主体吗？

答：是的，通过合并多个主体的注意力掩码，可以让生成的一组图像在同一画面中保持多个主体的一致性，这对于复杂场景或包含多个角色的内容生成尤为重要。

问：是否支持现有图像编辑流程？

答：ConsiStory 的机制兼容常见的图像控制扩展技术，允许与现有的控制工具集成，以在生成过程中实现更精细的姿态或布局控制，增强创作灵活性。

问：生成速度如何？

答：由于不需要训练或优化环节，在高性能 GPU 平台上，生成一致性图像集的速度显著提高，每幅图像平均生成时间在秒级别，与传统方案相比具有明显优势。